GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。

彼はこう質問した。

OpenAI は過去の応答をキャッシュし、GPT-4 が以前に生成された回答を直接繰り返すことを可能にします。

写真

最もわかりやすい例はジョークを言うことです。

証拠によれば、モデルの温度を上げても、GPT-4 は依然として同じ「科学者と原子」という答えを繰り返した。

それは、あのひどいジョークです。「なぜ科学者は原子を信用しないのか？すべては原子でできているからだ。」

写真

ここで、温度の値が大きいほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返す可能性が低くなるのは当然です。

それだけでなく、パラメータを変更せずに言葉を変え、新しい異なるジョークを語るべきだと強調したとしても、役に立ちません。

写真

発見者は次のように述べた。

これは、GPT-4 がキャッシュを使用するだけでなく、質問を正確に一致させるのではなく、クエリをクラスター化することを示しています。

そのメリットは明らかで、応答速度が速くなります。

しかし、高額な会員費を払ったのに、このようなキャッシュ検索サービスしか得られないのであれば、誰も満足しないでしょう。

写真

他の人は視聴後に次のように感じました。

もしこれが本当なら、他の大規模モデルの答えを評価するために常に GPT-4 を使用するのは不公平ではないでしょうか?

写真

もちろん、これが外部キャッシュの結果ではないと考える人もいますし、モデル自体の答えは非常に再現性が高いのかもしれません。

これまでの研究では、ChatGPT がジョークを言うとき、90% の確率で同じ 25 個のジョークを繰り返すことが示されています。

写真

具体的にはどう言えばいいでしょうか？

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

温度値が無視されるだけでなく、このネットユーザーは次のことも発見しました:

モデルの top_p 値を変更しても機能しません。GPT-4 は単にそのジョークに従います。

(top_p: モデルによって返される結果の信頼性を制御するために使用されます。より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答が必要な場合は値を上げます)

写真

唯一の方法は、ランダム性パラメータ n を増やして、「キャッシュされていない」回答を取得し、新しいジョークを取得することです。

写真

しかし、その「代償」は応答速度が遅くなることです。結局のところ、新しいコンテンツを生成すると、一定の遅延が発生します。

ローカルモデルで同様の現象を発見した人もいるようですが、これは言及する価値があります。

写真

誰かが言った: スクリーンショットの「プレフィックス一致ヒット」は、キャッシュが実際に使用されていることを証明しているようです。

そこで疑問になるのが、ビッグモデルはどうやってチャット情報をキャッシュするのかということです。

いい質問ですね。冒頭で示した 2 番目の例から判断すると、何らかの「クラスタリング」操作が実行されていることは明らかですが、それが具体的にどのようにディープマルチラウンド会話に適用されるかはわかりません。

写真

この問題はさておき、これを見て、ChatGPT の「あなたのデータは当社で保管されますが、チャットが終了すると会話の内容は削除されます」という声明を思い出し、突然気づく人もいるかもしれません。

写真

これにより、データセキュリティの問題について心配する人が出てくるのは避けられません。

これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか?

写真

もちろん、この心配は誇張されているかもしれないと考える人もいます。

おそらく、クエリの埋め込みと回答のキャッシュだけが保存されているのでしょう。

写真

それで、発見者自身が言ったように:

キャッシュ操作自体についてはあまり心配していません。

私が心配しているのは、OpenAI が温度などの設定に注意を払わずに、質問に答えるために質問を単純かつ大雑把に要約し、明らかに意味の異なるプロンプトを直接集約することです。これは非常に悪い影響を及ぼし、多くの (GPT-4 ベースの) アプリケーションを「台無しにする」可能性があります。

写真

もちろん、上記の調査結果が OpenAI が実際にキャッシュされた応答を使用していることを証明していると誰もが同意するわけではありません。

その理由は、著者が使用した例がたまたまジョークだったからである。

結局、今年6月に2人のドイツ人学者がテストを行い、ChatGPTにランダムにジョークを言うように依頼したところ、1,008件の結果のうち90%が同じ25個のジョークのバリエーションであったことがわかった。

写真

最も頻繁に登場するのは「科学者と原子」で、119 回言及されています。

したがって、以前の回答がキャッシュされているように見えるのは当然です。

そのため、一部のネットユーザーは、他の種類の質問でテストすることを提案しました。

しかし、著者は問題を変更する必要はないと主張しています。遅延時間を測定すれば、キャッシュの問題かどうかは簡単にわかります。

写真

最後に、この問題を別の角度から見てみましょう。

GPT-4 がいつも同じジョークを言うのは何が問題なのでしょうか?

大規模モデルは一貫性があり信頼性の高い回答を出力する必要があると常に強調してきませんでしたか?見て、なんて従順なんだ（犬の頭）。

写真

では、GPT-4 にはキャッシュがあるのでしょうか? 同様の現象を観察したことがありますか?

参考リンク: https://twitter.com/hammer_mt/status/1719150885559812379

<<:

>>:

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

JD Search EE リンクの進化

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

素晴らしいツールです！機械学習のためのテキスト注釈ツールとサービス 10 選

機械学習機能を簡単に拡張: Rancher に Kubeflow をインストールする方法

人工知能がプログラマーに取って代わるまでにはどれくらい時間がかかるのでしょうか?

ChatGPT App Store は深夜でもオンラインです! 300万GPTがネットワーク上で爆発的に増加し、開発者とOpenAIがその収益を分け合った

2024年に注目すべき5つの持続可能な技術

推薦する

トレーニング速度が60%アップ！わずか5行のコードで、PyTorch 1.6は自動混合精度トレーニングをネイティブにサポートします。

ニューラル機械翻訳の 3 つの主要な問題をどのように解決するか?清華大学がNMTの最新レビューを発表

GPT の成熟への道に関する公式メモ | OpenAI Developer Day

2021 年に注目すべき 3 つのデータ分析と AI のトレンド

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

人工知能は物流の自動化の方法を変え、労働集約型産業に革新をもたらすだろう

毎秒400ペタフロップスの計算能力を備えた最速のAIコンピュータが稼働中です。宇宙最大の3Dマップが構築中

すべてのデータサイエンティストが知っておくべき 19 の機械学習アルゴリズム