GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

GPT-4はますます愚かになり、過去の返信をキャッシュしていることが明らかになりました。ジョークが800回言われても、新しい返信は聞きません。

一部のネットユーザーは、GPT-4 が「愚か」になったことを示す別の証拠を発見しました。

彼はこう質問した。

OpenAI は過去の応答をキャッシュし、GPT-4 が以前に生成された回答を直接繰り返すことを可能にします。

写真

最もわかりやすい例はジョークを言うことです。

証拠によれば、モデルの温度を上げても、GPT-4 は依然として同じ「科学者と原子」という答えを繰り返した。

それは、あのひどいジョークです。「なぜ科学者は原子を信用しないのか?すべては原子でできているからだ。」

写真

ここで、温度の値が大きいほど、モデルが予期しない単語を生成しやすくなり、同じジョークを繰り返す可能性が低くなるのは当然です。

それだけでなく、パラメータを変更せずに言葉を変え、新しい異なるジョークを語るべきだと強調したとしても、役に立ちません。

写真

発見者は次のように述べた。

これは、GPT-4 がキャッシュを使用するだけでなく、質問を正確に一致させるのではなく、クエリをクラスター化することを示しています。

そのメリットは明らかで、応答速度が速くなります。

しかし、高額な会員費を払ったのに、このようなキャッシュ検索サービスしか得られないのであれば、誰も満足しないでしょう。

写真

他の人は視聴後に次のように感じました。

もしこれが本当なら、他の大規模モデルの答えを評価するために常に GPT-4 を使用するのは不公平ではないでしょうか?

写真

もちろん、これが外部キャッシュの結果ではないと考える人もいますし、モデル自体の答えは非常に再現性が高いのかもしれません。

これまでの研究では、ChatGPT がジョークを言うとき、90% の確率で同じ 25 個のジョークを繰り返すことが示されています。

写真

具体的にはどう言えばいいでしょうか?

GPT-4がキャッシュされたレスポンスを使用していることを証明する証拠

温度値が無視されるだけでなく、このネットユーザーは次のことも発見しました:

モデルの top_p 値を変更しても機能しません。GPT-4 は単にそのジョークに従います。

(top_p: モデルによって返される結果の信頼性を制御するために使用されます。より正確で事実に基づいた回答が必要な場合は値を下げ、より多様な回答が必要な場合は値を上げます)

写真

唯一の方法は、ランダム性パラメータ n を増やして、「キャッシュされていない」回答を取得し、新しいジョークを取得することです。

写真

しかし、その「代償」は応答速度が遅くなることです。結局のところ、新しいコンテンツを生成すると、一定の遅延が発生します。

ローカル モデルで同様の現象を発見した人もいるようですが、これは言及する価値があります。

写真

誰かが言った: スクリーンショットの「プレフィックス一致ヒット」は、キャッシュが実際に使用されていることを証明しているようです。

そこで疑問になるのが、ビッグモデルはどうやってチャット情報をキャッシュするのかということです。

いい質問ですね。冒頭で示した 2 番目の例から判断すると、何らかの「クラスタリング」操作が実行されていることは明らかですが、それが具体的にどのようにディープ マルチラウンド会話に適用されるかはわかりません。

写真

この問題はさておき、これを見て、ChatGPT の「あなたのデータは当社で保管されますが、チャットが終了すると会話の内容は削除されます」という声明を思い出し、突然気づく人もいるかもしれません。

写真

これにより、データ セキュリティの問題について心配する人が出てくるのは避けられません。

これは、私たちが開始したチャットがまだデータベースに保存されていることを意味しますか?

写真

もちろん、この心配は誇張されているかもしれないと考える人もいます。

おそらく、クエリの埋め込みと回答のキャッシュだけが保存されているのでしょう。

写真

それで、発見者自身が言ったように:

キャッシュ操作自体についてはあまり心配していません。

私が心配しているのは、OpenAI が温度などの設定に注意を払わずに、質問に答えるために質問を単純かつ大雑把に要約し、明らかに意味の異なるプロンプトを直接集約することです。これは非常に悪い影響を及ぼし、多くの (GPT-4 ベースの) アプリケーションを「台無しにする」可能性があります。

写真

もちろん、上記の調査結果が OpenAI が実際にキャッシュされた応答を使用していることを証明していると誰もが同意するわけではありません。

その理由は、著者が使用した例がたまたまジョークだったからである。

結局、今年6月に2人のドイツ人学者がテストを行い、ChatGPTにランダムにジョークを言うように依頼したところ、1,008件の結果のうち90%が同じ25個のジョークのバリエーションであったことがわかった。

写真

最も頻繁に登場するのは「科学者と原子」で、119 回言及されています。

したがって、以前の回答がキャッシュされているように見えるのは当然です。

そのため、一部のネットユーザーは、他の種類の質問でテストすることを提案しました。

しかし、著者は問題を変更する必要はないと主張しています。遅延時間を測定すれば、キャッシュの問題かどうかは簡単にわかります。

写真

最後に、この問題を別の角度から見てみましょう。

GPT-4 がいつも同じジョークを言うのは何が問題なのでしょうか?

大規模モデルは一貫性があり信頼性の高い回答を出力する必要があると常に強調してきませんでしたか?見て、なんて従順なんだ(犬の頭)。

写真

では、GPT-4 にはキャッシュがあるのでしょうか? 同様の現象を観察したことがありますか?

参考リンク: https://twitter.com/hammer_mt/status/1719150885559812379

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

JS データ構造とアルゴリズム_ソートおよび検索アルゴリズム

序文これは「JavaScript のデータ構造とアルゴリズムを学ぶ」の最後のブログです。これは、面接...

5G車道協調自動運転技術の応用について解説した記事

自動運転は現在社会的なホットな話題となっており、人工知能と自動化技術の革新的な開発にとって重要な方向...

...

自動運転のジレンマと選択

ここ数年、自動運転車に対する熱狂が高まっています。これは確かに合理的です。自動運転車は、燃費の向上、...

7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

Gradio は、機械学習やデータ サイエンス関連のデモや Web アプリケーションを構築するための...

劉玉樹:人工知能における中国と米国の格差は縮まっているが、まだやるべきことはある

著者の劉玉樹氏は中国人民大学重陽金融研究所学務委員会委員、マクロ研究部部長、研究者である。本稿は11...

...

Pudu Technology が「2021 年最も革新的な中国のケータリング ブランド トップ 100」に選出されました

最近、ケータリングボスインサイダーが主催する「Upward 2021・第6回中国ケータリングイノベー...

...

中国消費者協会:所有者や消費者は顔認識を強制されることはない。情報が漏洩すると非常に有害だからだ。

今年の315ガラでは、いくつかの有名ブランド店が顔情報を違法に収集していたことが摘発された。これらの...

ネットユーザーたちは、顔認識技術の何が難しいのかと冗談を言っている。

今朝、ジャック・マーは自身の微博に「ドイツで開かれたCEBITカンファレンスの開幕式が終わったばかり...

...

...

...

...