Googleは大規模モデルをより「インテリジェント」にし、GPT-4タスクの精度が大幅に向上しました。

Googleは大規模モデルをより「インテリジェント」にし、GPT-4タスクの精度が大幅に向上しました。

Google といくつかの大学による最近の研究により、大規模なモデルが人間の「心」を持ち始めることが可能になった。

新しいプロンプト戦略では、大規模モデルは人間が直面する問題を推測できるだけでなく、推測された結論を使用して自身の動作を調整することも学習できます。

この成果により、GPT-4 の「精神」レベルは人間の 71% にまで向上しました。

具体的には、研究者らは、今日の大規模モデルには、会話中に人間が何を考えているのかを推測する能力がすでに備わっていることを発見した。しかし、この推論に基づいてアクションを推奨するように要求すると、大規模なモデルでは解決するのが難しい問題になります。

例えば、シャオミンは学校から帰ってきた後、ランドセルをソファーに放り投げて遊びに出かけました。それを見た母親は、シャオミンがランドセルを寝室に置くのを手伝いました。

もし、大モデルが人間のように、シャオミンが帰ってきたらバッグが寝室にあると伝えることができれば、それはその大モデルが「心の理論」を持っていることを意味します。

研究者たちはこのアプローチを「Thinking for Doing(T4D)」と呼び、対応するタスクを設計しました。

T4Dタスクにおけるモデルのパフォーマンスを向上させるために、チームはさらに、予測と反映(FaR)プロンプト戦略を提案し、その結果、大規模モデルの「心」に大きな進歩がもたらされました。

論文のタイトルには「どこまで…」という二重の意味も含まれています。これは、大規模モデルに対する FaR フレームワークの有用性を反映しているだけでなく、大規模モデルと人間の「心」との間の距離も暗示しています。

では、FaR の大きなモデルには、どのような「心」があるのでしょうか?

ビッグモデルは「心」を持つことに一歩近づいた

例から始めましょう。下の図に示すように、緑と青の 2 つのキャビネットがあります。トムは緑のキャビネットにチョコレートを 1 枚入れました。

トムが去った後、エラはチョコレートを青いキャビネットに移しました。

それで、トムが戻ってきたら、どの戸棚からチョコレートを探すのでしょうか? (もちろん緑です)

これは「推論」タスクであり、心理学における有名な「サリー・アン」実験のバリエーションです。

T4D タスクは次のとおりです。

もしあなたがそこにいたら(そして何が起こっているか知っていたら)、どうしますか?

人間であればトムにチョコレートが取り除かれたことを伝えるでしょうが、(訓練されていない)大きなモデルはそうしないかもしれません。

調整前後の大規模モデルのパフォーマンスをよりマクロ的にテストするために、研究チームはToMiデータセットを選択し、それをT4D-Tomデータセットに適合させました。

ToMi は、多数の「サリー・アン」タイプのシナリオで構成されるテスト データセットであり、大規模モデルの「精神的推論」能力をテストするために使用されます。

推論の面では、最高のパフォーマンスを発揮する GPT-4 は人間とほぼ同じですが、T4D タスクでは人間のレベルの半分にしか達していないことがわかります。

そこで、研究チームが提案したFaR法が役立ちました。

FaR フレームワークの中心的なアイデアは、人間の合理的思考モードを模倣することであり、これは A* 検索アルゴリズム (最短経路の検索に使用) に多少似ています。

具体的には、FaR には「予見」「反映」という 2 つのステップが含まれます。

予測プロセスでは、モデルは次に何が起こるかを予測し、人々が直面する「困難」を分析するように求められます。

Reflect は Foresee の後に実行され、モデルは次の動作が対応する「困難」を解決できるかどうかを予測します。

FaR フレームワークを使用すると、効果はすぐに現れます。

Chain of Thought (CoT)、Tree of Thought (ToT)、自己質問と比較して、FaR は「Sally-Anne」タイプの T4D 問題における大規模モデルの精度を大幅に向上させます。

特にGPT-4の精度は人間の50%から71%に向上しました。GPT-3.5やGoogle独自のPaLMのパフォーマンスも向上しています。

アブレーション実験の結果は、Foresee と Reflect の両方が FaR の重要なステップであり、どちらも欠落してはならないことを示しています。

FaR法の汎用性と堅牢性を検証するために、研究チームは一連の一般化テストも実施しました。

最初のステップは、「サリー・アン」のシナリオに基づいてストーリーの構造を変更することでした。研究チームは次の 3 つの方法を試しました。

  • D1: 部屋数を増やす
  • D2: 文字数が増える
  • D3: コンテナの数が4に増加

その結果、FaR は依然として大規模モデルのタスクの精度向上に成功しました。3 番目のモードでは、GPT-4 は人間に匹敵する結果を達成しました。

意図的なノイズがあっても、FaR は大規模モデルのパフォーマンスを向上させることができます。

研究チームは、紛らわしい情報を含んだ「Faux Pas」データセットを特別に構築し、GPT-4 のパフォーマンスは 31% から 76% に向上しました。

著者について

FaR 論文の第一著者は、南カリフォルニア大学の NLP 研究所の中国人博士課程学生、Pei Zhou 氏です。

この成果は、Google でのインターンシップ中に達成されました。

さらに、Google(DeepMindを含む)、カーネギーメロン大学、シカゴ大学の学者もこのプロジェクトに参加しました。

では、ビッグモデルの「心」についてどう思いますか?

論文アドレス: http://arxiv.org/abs/2310.03051

<<: 

>>:  一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

ブログ    
ブログ    

推薦する

AIのデジタルシールド:インフラのサイバーセキュリティ戦略の強化

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...

OpenAIも996に取り組んでいますか?元従業員が告白:コード貢献度4位、6日間勤務することが多かった

AI 業界の人なら、OpenAI が先進的な技術と高い給与で AI 業界のリーダーであることは知って...

MITジェネシス核融合が世界記録を更新!高温超伝導磁石が恒星のエネルギーを解放、人工太陽が誕生するのか?

クリーンエネルギーの聖杯は征服されたのか? 「MITチームは、一夜にして核融合炉のワット当たりコスト...

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

人間の認知においては、汎用人工知能(AGI)を人工知能の究極の形、およびその開発の究極の目標として設...

Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

2021年、Facebookは「メタバース」を主力事業とし、社名をMetaに変更した。しかし、今年は...

...

ドローン技術がモバイルIoTの範囲を拡大

無人航空機(口語では「ドローン」と呼ばれる)は、航空業界に無人航空機を導入することで、ライト兄弟の有...

最高裁:アプリは顔情報を収集・処理するためにユーザーの個別の同意が必要

最高人民法院研究室民事部の陳龍野部長は、一部のモバイルアプリケーション(APP)はしばらくの間、パッ...

機械学習入門: HelloWorld (Tensorflow)

ソースコードのダウンロードアドレス: https://share.weiyun.com/a0c166...

人工知能、垂直農法、ブロックチェーン、ロボットは、未来の農業の急速な発展を推進する4つの主要技術である。

これは日本の東京国際展示場にあるデンソーの双腕協働ロボットの写真です。写真提供:新華社記者 華毅国連...

AIの次の目的地はどこでしょうか?

[[318187]]私たちはインテリジェント変革の時代に生きており、人工知能技術はあらゆる分野の人...

AIを活用して混雑した都市での駐車のストレスを軽減

混雑した市街地でドライバーが駐車スペースを見つけるのを助ける人工知能がバース大学で開発されている。こ...

...

人間と機械のインターフェースは一貫性があり、音声と触覚によるフィードバックを提供する必要がある。

[[187855]]仮想環境を体験し、対話する機能は、仮想現実 (VR) メディアの独自の機能です...

生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF

タスクに適した GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を...