GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスクにおけるその優れたパフォーマンスに驚嘆するとともに、「GPT-4 は AGI なのか?」という疑問も生じました。彼は本当にAIが人間に取って代わる日を予言したのだろうか?

Twitter上の多くのネットユーザーも投票を開始した。

主な反対意見は次のとおりです。

- 推論能力の限界: GPT-4 は、「逆推論」を実行できないことと、世界を推定するための抽象的なモデルを形成することが難しいことで最も批判されています。

- タスク固有の一般化: GPT-4 は形式的には一般化できますが、タスク全体の目的を達成するのが難しい場合があります。

では、GPT-4 の推論能力や抽象能力と人間のそれとのギャップはどれほど大きいのでしょうか? この種の感性については、それを裏付ける定量的な研究はないようです。

最近、サンタフェ研究所の研究者たちは、推論と抽象的な一般化における人間と GPT-4 のギャップを体系的に比較しました。

論文リンク: https://arxiv.org/abs/2311.09247

研究者らは、GPT-4 の抽象的推論能力の観点から、ConceptARC ベンチマーク テストを使用して GPT-4 のテキスト バージョンとマルチモーダル バージョンのパフォーマンスを評価しました。結果は、GPT-4 が人間とまだ大きなギャップがあることを示しています。

ConceptARC はどのようにテストされますか?

ConceptARC は、手動で作成された 1000 個の類推パズル (タスク) のセットである ARC に基づいています。各パズルには、グリッド上の変換の小さなセット (通常 2 ~ 4 個) と「テスト入力」グリッドが含まれています。

挑戦者のタスクは、デモンストレーションの根底にある抽象的なルールを導き出し、そのルールをテスト入力に適用して変換されたグリッドを生成することです。

下の図に示すように、デモンストレーションのルールに従って、挑戦者は新しいグリッドを生成する必要があります。

ARC 設計の目的は、抽象的推論の核心を捉えることに重点を置くことです。つまり、少数の例から普遍的な法則やパターンを導き出し、それを新しい、これまで見たことのない状況に柔軟に適用できるようにすることです。一方で、言語や学習した記号知識を弱めて、「近似検索」や以前のトレーニング データのパターン マッチングへの依存を回避します。これが、言語ベースの推論タスクで表面的に成功している理由かもしれません。

ConceptARC はこの基盤を基に、上と下、内側と外側、中心、同じと違うなど、特定の中核的な空間概念と意味概念の体系的なバリエーションに編成された 480 のタスクに改善しました。各タスクは、異なる方法と異なる抽象化レベルで概念をインスタンス化します。

この変更により、概念はより抽象的になり、人間にとって理解しやすくなり、結果によって GPT-4 と人間の抽象的推論能力の比較がより明確になります。

テスト結果は、GPT-4がまだ人間よりはるかに劣っていることを示している

研究者らは、テキストのみの GPT-4 とマルチモーダル GPT-4 の両方をテストしました。

GPT-4 のテキストのみのバージョンについては、研究者らは、指示と解決済みタスクの例を含む、より表現力豊かなプロンプトを使用して評価し、GPT-4 が間違った回答をした場合に最大 3 回まで別の回答を出すように要求しました。

しかし、異なる温度設定(温度は、生成されるテキストの多様性と不確実性を調整するために使用される調整可能なパラメーターです。温度が高いほど、生成されるテキストはランダムで多様になり、タイプミスや不確実性が多くなる可能性があります)では、下の図に示すように、480 のタスク全体で、GPT-4 の精度パフォーマンスは人間のそれよりはるかに劣っています。

マルチモーダル実験では、研究者らは ConceptARC タスクの最も単純な視覚バージョン (つまり、わずか 48 のタスク) で GPT-4V を評価し、最初の一連の実験と同様のプロンプトを与えましたが、タスクを表すためにテキストではなく画像を使用しました。

結果は下の図に示されています。最小限のタスクを画像としてマルチモーダル GPT-4 に入力すると、テキストのみの場合よりもパフォーマンスがさらに低下します。

おそらく現在利用可能な最も強力な汎用 LLM である GPT-4 は、トレーニング データでこれまで見られなかったコンテキストに現れる基本的なコア概念について、抽象化を堅牢に形成し推論することができないと結論付けるのは難しくありません。

ネットユーザーの分析

有名なネットユーザーがConceptARCにGPT-4のパフォーマンスに関するコメントを5件投稿しました。主な理由の 1 つは次の通りです。

大規模な Transformer ベースの言語モデルのベンチマークでは、重大な間違いが起こっています。多くの場合、短い説明を提供することでモデルが回答を生成するように誘導しますが、実際には、これらのモデルは単に次に最も可能性の高いトークンを生成するように設計されているわけではありません。

モデルをブートストラップするときに、関連する概念をガイドして固定するための適切な命題ロジックがないと、モデルはトレーニング データを再現したり、ロジックが完全に開発されていないか適切に固定されていない概念に関連する最も近い回答を提供するという誤ったモードに陥る可能性があります。

つまり、大規模モデルによって設計された問題の解決策が上図のようになる場合、実際に解決する必要がある問題は下図のようになると考えられます。

研究者らは、GPT-4とGPT-4Vの抽象的推論能力を向上させる次のステップは、他の手がかりやタスク表現方法を試すことだろうと述べている。

私が言えるのは、大型モデルが本当に人間のレベルに到達するまでには、まだ長い道のりがあるということです。

<<: 

>>:  ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

ブログ    
ブログ    
ブログ    

推薦する

Swift モバイル ゲーム開発に適用される幅優先探索アルゴリズム

[51CTO.com クイック翻訳] Swift Algorithm Club (https://g...

認知マップの科学的インベントリ: グローバルな第3世代AIの「大きな」機会

近年、人工知能 (AI) は、ディープラーニング、コンピューター ビジョン、自然言語処理などの技術革...

李開復:中国の大型モデル競争は非常に激しく、最終的には大きな勝者が数人出るだろう

12月28日、ベンチャーキャピタリストで元Google China社長の李開復氏の予測によれば、中国...

電子商取引の製品推奨におけるディープラーニングの応用

[[201999]] 1. 共通アルゴリズムルーチン電子商取引業界では、ユーザーへの商品推奨は常に非...

快手が手の姿勢推定機能を発表、電光手の秘密を公式に公開

アイアンマンは指と手のひらを回すだけで、あっという間に鎧の製作を完了した。この魔法のような技に、スク...

PyTorch がトップカンファレンスを席巻: CVPR 論文は TensorFlow の 4 倍を占める

オープンソース フレームワークの分野では、PyTorch と TensorFlow の間で常に議論が...

思考連鎖CoTは思考マップGoTへと進化し、思考ツリーよりも優れたヒントエンジニアリング技術が誕生した

大規模言語モデル (LLM) の機能を最大限に活用するには、効果的なプロンプト設計ソリューションが不...

ScalableMap: オンラインで長距離ベクトル化された高精度マップ構築のためのスケーラブルなマップ学習

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

AI研究機関OpenAIがライティングAIを開発:十分にリアルなフェイクニュースを書く

北京時間2月15日朝のニュース、ブルームバーグ通信によると、マスク氏が提唱するAI研究機関OpenA...

...

AI はどのようにしてソフトウェアおよびハードウェア製品のイノベーションを実現するのでしょうか? Baidu Brain オープンデー 西安駅の暗号解読

6月25日、「AIによるソフトウェアとハ​​ードウェア製品のイノベーションの促進」をテーマにした西安...

プロフェッショナルスキルを向上させる: 10のNLPテクニックを理解して習得する

1. 感情分析感情分析とは、ツイート、製品レビュー、顧客からのフィードバックなどのテキストの背後にあ...

PaddlePaddle を使用してオブジェクト検出タスクを実装する - Paddle Fluid v1.1 の詳細なレビュー

【51CTO.comオリジナル記事】 1. はじめに11月1日、BaiduはPaddle Fluid...