GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスクにおけるその優れたパフォーマンスに驚嘆するとともに、「GPT-4 は AGI なのか?」という疑問も生じました。彼は本当にAIが人間に取って代わる日を予言したのだろうか?

Twitter上の多くのネットユーザーも投票を開始した。

主な反対意見は次のとおりです。

- 推論能力の限界: GPT-4 は、「逆推論」を実行できないことと、世界を推定するための抽象的なモデルを形成することが難しいことで最も批判されています。

- タスク固有の一般化: GPT-4 は形式的には一般化できますが、タスク全体の目的を達成するのが難しい場合があります。

では、GPT-4 の推論能力や抽象能力と人間のそれとのギャップはどれほど大きいのでしょうか? この種の感性については、それを裏付ける定量的な研究はないようです。

最近、サンタフェ研究所の研究者たちは、推論と抽象的な一般化における人間と GPT-4 のギャップを体系的に比較しました。

論文リンク: https://arxiv.org/abs/2311.09247

研究者らは、GPT-4 の抽象的推論能力の観点から、ConceptARC ベンチマーク テストを使用して GPT-4 のテキスト バージョンとマルチモーダル バージョンのパフォーマンスを評価しました。結果は、GPT-4 が人間とまだ大きなギャップがあることを示しています。

ConceptARC はどのようにテストされますか?

ConceptARC は、手動で作成された 1000 個の類推パズル (タスク) のセットである ARC に基づいています。各パズルには、グリッド上の変換の小さなセット (通常 2 ~ 4 個) と「テスト入力」グリッドが含まれています。

挑戦者のタスクは、デモンストレーションの根底にある抽象的なルールを導き出し、そのルールをテスト入力に適用して変換されたグリッドを生成することです。

下の図に示すように、デモンストレーションのルールに従って、挑戦者は新しいグリッドを生成する必要があります。

ARC 設計の目的は、抽象的推論の核心を捉えることに重点を置くことです。つまり、少数の例から普遍的な法則やパターンを導き出し、それを新しい、これまで見たことのない状況に柔軟に適用できるようにすることです。一方で、言語や学習した記号知識を弱めて、「近似検索」や以前のトレーニング データのパターン マッチングへの依存を回避します。これが、言語ベースの推論タスクで表面的に成功している理由かもしれません。

ConceptARC はこの基盤を基に、上と下、内側と外側、中心、同じと違うなど、特定の中核的な空間概念と意味概念の体系的なバリエーションに編成された 480 のタスクに改善しました。各タスクは、異なる方法と異なる抽象化レベルで概念をインスタンス化します。

この変更により、概念はより抽象的になり、人間にとって理解しやすくなり、結果によって GPT-4 と人間の抽象的推論能力の比較がより明確になります。

テスト結果は、GPT-4がまだ人間よりはるかに劣っていることを示している

研究者らは、テキストのみの GPT-4 とマルチモーダル GPT-4 の両方をテストしました。

GPT-4 のテキストのみのバージョンについては、研究者らは、指示と解決済みタスクの例を含む、より表現力豊かなプロンプトを使用して評価し、GPT-4 が間違った回答をした場合に最大 3 回まで別の回答を出すように要求しました。

しかし、異なる温度設定(温度は、生成されるテキストの多様性と不確実性を調整するために使用される調整可能なパラメーターです。温度が高いほど、生成されるテキストはランダムで多様になり、タイプミスや不確実性が多くなる可能性があります)では、下の図に示すように、480 のタスク全体で、GPT-4 の精度パフォーマンスは人間のそれよりはるかに劣っています。

マルチモーダル実験では、研究者らは ConceptARC タスクの最も単純な視覚バージョン (つまり、わずか 48 のタスク) で GPT-4V を評価し、最初の一連の実験と同様のプロンプトを与えましたが、タスクを表すためにテキストではなく画像を使用しました。

結果は下の図に示されています。最小限のタスクを画像としてマルチモーダル GPT-4 に入力すると、テキストのみの場合よりもパフォーマンスがさらに低下します。

おそらく現在利用可能な最も強力な汎用 LLM である GPT-4 は、トレーニング データでこれまで見られなかったコンテキストに現れる基本的なコア概念について、抽象化を堅牢に形成し推論することができないと結論付けるのは難しくありません。

ネットユーザーの分析

有名なネットユーザーがConceptARCにGPT-4のパフォーマンスに関するコメントを5件投稿しました。主な理由の 1 つは次の通りです。

大規模な Transformer ベースの言語モデルのベンチマークでは、重大な間違いが起こっています。多くの場合、短い説明を提供することでモデルが回答を生成するように誘導しますが、実際には、これらのモデルは単に次に最も可能性の高いトークンを生成するように設計されているわけではありません。

モデルをブートストラップするときに、関連する概念をガイドして固定するための適切な命題ロジックがないと、モデルはトレーニング データを再現したり、ロジックが完全に開発されていないか適切に固定されていない概念に関連する最も近い回答を提供するという誤ったモードに陥る可能性があります。

つまり、大規模モデルによって設計された問題の解決策が上図のようになる場合、実際に解決する必要がある問題は下図のようになると考えられます。

研究者らは、GPT-4とGPT-4Vの抽象的推論能力を向上させる次のステップは、他の手がかりやタスク表現方法を試すことだろうと述べている。

私が言えるのは、大型モデルが本当に人間のレベルに到達するまでには、まだ長い道のりがあるということです。

<<: 

>>:  ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

ブログ    
ブログ    

推薦する

AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

[[283218]] [51CTO.com クイック翻訳] 実際、人工知能技術は私たちの生活を日々...

ロボットによるモノのインターネットは製造業の未来となるのでしょうか?

ロボットによるモノのインターネットは、産業用ロボットと IoT センサーという 2 つの貴重なテクノ...

MITテクノロジーレビューが2019年の世界トップ10の画期的テクノロジーを発表

MITテクノロジーレビューは2001年以来、毎年その年の「トップ10ブレークスルーテクノロジー」を選...

わが国には「人工知能」関連企業が43万社以上あり、2021年上半期には前年比150.8%増加した。

IT Homeは7月5日、統計によると、現在わが国には43万9000社の「人工知能」関連企業がある...

産業オペレーションの深化が人工知能コンピューティングセンター構築の鍵

新たな科学技術革命と産業革命の到来とともに、デジタル経済は第四次産業革命の重要な礎となり、新たな組織...

モノのインターネットはスマートな衛生設備を創り出し、都市環境の衛生を細かく管理します

旅行のピーク時に都市環境衛生がより大きな圧力に耐えられるか?清掃車両と清掃作業員をより適切に管理する...

周志華:「データ、アルゴリズム、計算力」は人工知能の3つの要素であり、今後は「知識」が加わる必要があります。

CCF-GAIR 2020人工知能フロンティア特別セッションでは、南京大学コンピュータサイエンス学...

...

...

機械学習は電力業界に大きな変化をもたらすだろう

エネルギーの状況は劇的な変化を迎えようとしており、今は機械学習と電力網を組み合わせる絶好の機会です。...

...

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

PyTorch がなぜ人気があるのでしょうか?創業者スーミスが成長の秘訣を語る

PyTorch は、ディープラーニング分野で最も人気のあるフレームワークの 1 つです。最初のバージ...

...

産業用ロボットの 4 つのプログラミング技術のうち、いくつ知っていますか?

1. 概要現在、ロボットは溶接、組み立て、ハンドリング、塗装、研磨などの分野で広く利用されており、...