スタンフォード大学は、GPT-4 が愚かになったことを確認しました。 OpenAIの最新の回答: 確かに「知能の低下」は起きている

写真

大型模型天井GPT-4、だんだんと鈍くなってきているのでしょうか？

これまでにも多くのユーザーが疑問を呈し、多くの証拠を投稿してきました。これに対して、OpenAIは7月14日に次のように明言した。「GPT 4を愚かにしたわけではありません。それどころか、新しいバージョンが出るたびにGPT 4は以前よりも賢くなります。」

写真

ピーター・ウェリンダーはOpenAIのプロダクト担当副社長です。

しかし、OpenAIの主張を検証するために、スタンフォード大学とカリフォルニア大学バークレー校の3人の研究者が、3月から6月までのChatGPTのパフォーマンスの変化を調査した。

写真

論文アドレス: https://arxiv.org/abs/2307.09009

評価対象には、GPT-3.5 と GPT-4 という 2 つの大規模モデルが含まれ、数学の問題、機密性の高い/危険な質問への回答、コード生成、視覚的推論という 4 つのタスクでテストされます。

調査の結果、GPT-4 のパフォーマンスは確かに低下していたことが判明しました。

たとえば、数学の問題では、GPT-4 の 2023 年 3 月バージョンは 97.6% の精度で素数を識別できましたが、GPT-4 の 2023 年 6 月バージョンはこのタスクでのパフォーマンスが低く (精度はわずか 2.4%)、一貫した思考プロンプトを無視しました。

写真

このような科学的な実験的証拠に応えて、OpenAIはブログ投稿「関数呼び出しとその他のAPIアップデート」を更新し、一部のタスクのパフォーマンスが実際に低下したと述べた。

新しいモデルをリリースする必要があるかどうかを判断するために、多数の評価指標を検討します。ほとんどの指標は改善されていますが、パフォーマンスが悪化するタスクもいくつかある可能性があります。
新しいモデルをリリースするかどうかは、多数の評価指標に基づいて決定されます。新しいモデルのほとんどの指標は改善されていますが、一部のタスクではモデルのパフォーマンスが低下する可能性があります。

これが、API ユーザーがモデルバージョンを固定できるようにする理由です。たとえば、最新のモデルバージョンを指す汎用 gpt-4 の代わりに gpt-4-0314 を使用できます。
このため、API ユーザーは固定バージョンモデルを使用できます。たとえば、最新の gpt-4 バージョンを使用する代わりに、ユーザーは gpt-4-0314 を使用することを選択できます。

個別に固定された各モデルは安定しており、出力に影響を与える変更は行われません。
さらに、OpenAI はモデルの修正バージョンに対して、出力に影響を与える可能性のある変更は行いません。

では、GPT-4 は具体的にどのタスクで劣化したのでしょうか?論文の詳細を見てみましょう。

実験プロセスとその他の結論

写真

この論文では、著者らは各タスクの主なパフォーマンス指標を設定しています。たとえば、数学の問題を解くタスクの場合、主なパフォーマンス指標は正確性であり、デリケートな質問に答えるタスクの場合、主なパフォーマンス指標は回答率です。さらに、すべてのタスクに対して、冗長性と重複という 2 つの共通の補完的なメトリックを設定しました。

写真

前述のように、数学の問題テストでは、著者らは素数判定問題を解く際のGPT-4とGPT-3.5の「時間パフォーマンス」を研究しました。実験方法は、Chain-of-Thought 法を使用してデータセット内の 500 の質問に答えることです。

結果は、2つのモデルに明らかな矛盾が見られることを示しました。GPT-4の精度は3月の97.6％から6月の2.4％に低下しました。同時に、GPT-3.5の精度は7.4％から86.8％に向上しました。さらに、GPT-4 の回答はより簡潔ですが、GPT-3.5 の回答はより長くなります。

この違いの理由は、思考連鎖効果に関係している可能性があります。例えば、3 月版の GPT-4 では、思考連鎖の手順をうまくたどって 17077 が素数かどうかを判断できましたが、6 月版では直接「いいえ」と回答しました。 3 月の GPT-3.5 では、最初に「いいえ」と答えてから理由を述べる傾向がありましたが、6 月のバージョンではこの問題が修正され、最初に推論手順を正しく記述してから正しい答え「はい」が示されるようになりました。これは、思考連鎖などの同じプロンプト方法であっても、モデルの変更によりパフォーマンスが大きく異なる可能性があることを示唆しています。

センシティブな質問のテストでは、著者らは、大規模モデルでは直接回答できないセンシティブな質問 100 件のデータセットを作成し、すべての回答に手動でラベルを付けました。

写真

結果によると、3月から6月の間に、センシティブな質問に直接答えるGPT-4の割合は21.0％から5.0％に減少し、GPT-3.5の割合は2.0％から8.0％に増加しました。これは、GPT-4はセキュリティが強化されているのに対し、GPT-3.5には対応する操作がないことが原因であると考えられます。

同時に、GPT-4 の応答のテキストの長さは 600 語以上から約 140 語に短縮されました。

一方、大規模モデルの「ジェイルブレイク」は、サービスのセキュリティに大きな脅威をもたらします。著者らは、架空のストーリーを構築して大規模モデルをフィルタリングされていない非道徳的なチャットボットのように動作させる AIM (always intelligence and Machiavellian) と呼ばれる攻撃を使用しました。

結果は、AIM 攻撃を受けた場合、GPT-4 と GPT-3.5 の両方の応答率が大幅に増加したことを示しています。ただし、GPT-4 の防御はアップデート後に大幅に強化され、3 月の回答率が 78% から 6 月の 31.0% に向上しましたが、GPT-3.5 の回答率はそれほど変化せず、わずか 4% の減少にとどまりました。これは、GPT-4 が GPT-3.5 よりも脱獄攻撃に対して防御力が高いことを示しています。

写真

コード生成能力テストでは、著者らは最新の 50 個の LeetCode「簡単な」問題を含む新しいコード生成データセットを作成しました。結果によると、「直接実行可能な」ビルドの数は 3 月から 6 月にかけて減少しました。

上の図に示すように、3 月には GPT-4 によって生成された結果の 50% 以上が「直接実行可能」でしたが、6 月には 10% しか残っていませんでした。 GPT-3.5 でも状況は同様で、2 つのモデルで生成された結果の冗長性もわずかに増加しています。

この点に関して、スタンフォード大学の研究者は、生成されたコードに非コードテキストが追加されることが原因ではないかと推測している。

写真

上図に示すように、3月と6月にGPT-4によって生成されたコードには違いがあります。たとえば、6 月のバージョンでは、コードスニペットの前後に「python」と「'''」が追加され、コードブロックをマークするために使用できるほか、より多くのコメントも生成されます。

視覚的推論テストでは、研究者は評価に ARC データセットを使用しました。このデータセットのタスクは、いくつかの例が与えられた入力メッシュに基づいて出力メッシュを作成することです。

写真

図1: 視覚的推論の全体的なパフォーマンス

3月版から6月版にかけて、GPT-4とGPT-3.5の全体的なパフォーマンスは約2％向上しました。生成された長さはほぼ同じままです。

GPT-4 と GPT-3.5 の両方のパフォーマンスの向上はわずかです。しかし、3 月版と 6 月版では、ビジュアルパズルのクエリの 90% で同じ結果が出ました。これらのサービスの全体的なパフォーマンスも低く、GPT-4 の精度は 27.4%、GPT-3.5 の精度は 12.2% です。

専門家は推測する：おそらくそれはMoE技術に関連している

GPT-4 が愚かになることに関して、学術界では以前、その後の RLHF トレーニングによって GPT-4 はより人間に近づき、つまり人間の指示に従順になり、人間の価値観に沿ったものになったものの、GPT-4 自身の推論能力やその他の能力も低下したという見解がありました。

言い換えれば、人間による過酷な「教化」によって、GPT-4 の大脳葉の白質が除去されたのです。

写真

一部の専門家は、GPT が愚かになる理由は、その「専門家の混合」(MOE) 構造に関連していると考えています。

MoE 技術は、ニューラルネットワークの分野で開発された統合学習技術です。数兆個のパラメータを持つモデルをトレーニングするための重要な技術でもあります。この段階では、モデルの規模が大きくなるにつれて、トレーニングコストも増加しています。MoE 技術は、一部のニューラルネットワークを動的にアクティブ化できるため、計算量を増やすことなく、モデルパラメータの数を大幅に増やすことができます。

具体的には、MoE は予測モデリングタスクをいくつかのサブタスクに分解し、各サブタスクでエキスパートモデルをトレーニングし、予測する入力に基づいてどのエキスパートを信頼するかを学習し、予測結果を組み合わせるゲーティングモデルを開発します。

MoE テクノロジーが GPT-4 に適用されると、GPT-4 のこれらの小さなエキスパートモデルは、さまざまなタスクや分野に合わせてトレーニングされます。たとえば、生物学、物理学、化学などの小さな GPT-4 エキスパートモデルを作成できます。その後、ユーザーが GPT-4 に質問すると、新しいシステムはどのエキスパートモデルに質問を送信するかを認識します。また、念のため、新しいシステムでは 2 つ以上のエキスパートモデルにクエリを送信し、その結果を組み合わせる可能性があります。

業界の専門家はこのアプローチを「テセウスの船」と表現し、OpenAI が時間の経過とともに GPT-4 のさまざまな部分を置き換えることを意味しています。「OpenAI は GPT-4 を小さな艦隊に変えつつあります。」

注: テセウスの船は、物体のすべての構成要素が完全に置き換えられた後も物体が元のアイデンティティを保持するかどうかという哲学的なパラドックスを探求する古代ギリシャの思考実験です。つまり、船のすべての部品が交換された後でも、その船は元の船のままでしょうか?

そのため、GPT-4の愚かさは、MoEのトレーニング方法に関係している可能性が高い。「ユーザーがGPT-4をテストするとき、私たちはさまざまな質問をします。小規模なGPT-4エキスパートモデルはそれほどうまくいきませんが、私たちのデータを集めているので、改善して学習します」とスタンフォード大学の非常勤教授、シャロン・ゾウ氏は紹介した。

写真

専門的な研究チームに加えて、AIに関心のあるネットユーザーも独自の方法でAI機能の変化を追跡しています。たとえば、誰かが GPT-4 に 1 日に 1 回ユニコーンを描くように依頼し、それを Web サイトで公開記録したとします。上図の通り、現在の形状です。

写真

実際のところ、4月14日から現在に至るまで、ユニコーンの全体的な形はまだ見られていません。

<<: Wolfram言語の父: ChatGPT は何ができるのか?

>>: