GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスクにおけるその優れたパフォーマンスに驚嘆するとともに、「GPT-4 は AGI なのか?」という疑問も生じました。彼は本当にAIが人間に取って代わる日を予言したのだろうか?

Twitter上の多くのネットユーザーも投票を開始した。

主な反対意見は次のとおりです。

- 推論能力の限界: GPT-4 は、「逆推論」を実行できないことと、世界を推定するための抽象的なモデルを形成することが難しいことで最も批判されています。

- タスク固有の一般化: GPT-4 は形式的には一般化できますが、タスク全体の目的を達成するのが難しい場合があります。

では、GPT-4 の推論能力や抽象能力と人間のそれとのギャップはどれほど大きいのでしょうか? この種の感性については、それを裏付ける定量的な研究はないようです。

最近、サンタフェ研究所の研究者たちは、推論と抽象的な一般化における人間と GPT-4 のギャップを体系的に比較しました。

論文リンク: https://arxiv.org/abs/2311.09247

研究者らは、GPT-4 の抽象的推論能力の観点から、ConceptARC ベンチマーク テストを使用して GPT-4 のテキスト バージョンとマルチモーダル バージョンのパフォーマンスを評価しました。結果は、GPT-4 が人間とまだ大きなギャップがあることを示しています。

ConceptARC はどのようにテストされますか?

ConceptARC は、手動で作成された 1000 個の類推パズル (タスク) のセットである ARC に基づいています。各パズルには、グリッド上の変換の小さなセット (通常 2 ~ 4 個) と「テスト入力」グリッドが含まれています。

挑戦者のタスクは、デモンストレーションの根底にある抽象的なルールを導き出し、そのルールをテスト入力に適用して変換されたグリッドを生成することです。

下の図に示すように、デモンストレーションのルールに従って、挑戦者は新しいグリッドを生成する必要があります。

ARC 設計の目的は、抽象的推論の核心を捉えることに重点を置くことです。つまり、少数の例から普遍的な法則やパターンを導き出し、それを新しい、これまで見たことのない状況に柔軟に適用できるようにすることです。一方で、言語や学習した記号知識を弱めて、「近似検索」や以前のトレーニング データのパターン マッチングへの依存を回避します。これが、言語ベースの推論タスクで表面的に成功している理由かもしれません。

ConceptARC はこの基盤を基に、上と下、内側と外側、中心、同じと違うなど、特定の中核的な空間概念と意味概念の体系的なバリエーションに編成された 480 のタスクに改善しました。各タスクは、異なる方法と異なる抽象化レベルで概念をインスタンス化します。

この変更により、概念はより抽象的になり、人間にとって理解しやすくなり、結果によって GPT-4 と人間の抽象的推論能力の比較がより明確になります。

テスト結果は、GPT-4がまだ人間よりはるかに劣っていることを示している

研究者らは、テキストのみの GPT-4 とマルチモーダル GPT-4 の両方をテストしました。

GPT-4 のテキストのみのバージョンについては、研究者らは、指示と解決済みタスクの例を含む、より表現力豊かなプロンプトを使用して評価し、GPT-4 が間違った回答をした場合に最大 3 回まで別の回答を出すように要求しました。

しかし、異なる温度設定(温度は、生成されるテキストの多様性と不確実性を調整するために使用される調整可能なパラメーターです。温度が高いほど、生成されるテキストはランダムで多様になり、タイプミスや不確実性が多くなる可能性があります)では、下の図に示すように、480 のタスク全体で、GPT-4 の精度パフォーマンスは人間のそれよりはるかに劣っています。

マルチモーダル実験では、研究者らは ConceptARC タスクの最も単純な視覚バージョン (つまり、わずか 48 のタスク) で GPT-4V を評価し、最初の一連の実験と同様のプロンプトを与えましたが、タスクを表すためにテキストではなく画像を使用しました。

結果は下の図に示されています。最小限のタスクを画像としてマルチモーダル GPT-4 に入力すると、テキストのみの場合よりもパフォーマンスがさらに低下します。

おそらく現在利用可能な最も強力な汎用 LLM である GPT-4 は、トレーニング データでこれまで見られなかったコンテキストに現れる基本的なコア概念について、抽象化を堅牢に形成し推論することができないと結論付けるのは難しくありません。

ネットユーザーの分析

有名なネットユーザーがConceptARCにGPT-4のパフォーマンスに関するコメントを5件投稿しました。主な理由の 1 つは次の通りです。

大規模な Transformer ベースの言語モデルのベンチマークでは、重大な間違いが起こっています。多くの場合、短い説明を提供することでモデルが回答を生成するように誘導しますが、実際には、これらのモデルは単に次に最も可能性の高いトークンを生成するように設計されているわけではありません。

モデルをブートストラップするときに、関連する概念をガイドして固定するための適切な命題ロジックがないと、モデルはトレーニング データを再現したり、ロジックが完全に開発されていないか適切に固定されていない概念に関連する最も近い回答を提供するという誤ったモードに陥る可能性があります。

つまり、大規模モデルによって設計された問題の解決策が上図のようになる場合、実際に解決する必要がある問題は下図のようになると考えられます。

研究者らは、GPT-4とGPT-4Vの抽象的推論能力を向上させる次のステップは、他の手がかりやタスク表現方法を試すことだろうと述べている。

私が言えるのは、大型モデルが本当に人間のレベルに到達するまでには、まだ長い道のりがあるということです。

<<: 

>>:  ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIと機械学習モデルをトレーニング、テスト、維持する方法

AI および機械学習モデルの作成に必要なスキルセットをより深く理解するには、機械学習ソフトウェアによ...

完全自動サポートにより、ドローンは真の「無人」になります。

ドローンについては皆さんもよくご存知だと思います。近年、無人運用の需要が継続的に高まり、さまざまな最...

クラシック絵文字パッケージにこの「続編」があることが判明しました。ステーブルビデオのクリエイティブなゲームプレイが人気

AI を使って古典的な絵文字を動画にアップグレードする、この創造的な遊び方が最近かなり人気になってい...

見事な! ! !テスラのエンドツーエンドのデモンストレーションビデオ分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

リアルタイムスタイル転送、モバイル端末で実行、顔エフェクトで遊ぶ新しい方法

今年、フェイシャルビデオエフェクトは世界中で再び大人気になりました。年初にやった「蟻の歯黒」(人間の...

AI はデータセンターをよりスマートにするためにどのように役立ちますか?

[[383176]]今日、人工知能 (AI) は、これまで以上に高速にデータを収集、処理、分析する...

...

ロボットになることでのみロボットを倒すことができる

人類はロボットの時代に突入している。ロボット工学の専門家や哲学者の中には、将来、高度に知能化されたロ...

「アルゴリズムとデータ構造」JavaScript のリンク リスト

[[378875]]この記事はWeChatの公開アカウント「Unorthodox Front-end...

4つの高性能なデータ型、Pythonコレクションはコードの最適化とタスクの簡素化に役立ちます

この記事では、機械学習エンジニアの George Seif が、Python のコレクション モジュ...

製造業におけるデジタルツインについて知っておくべきことすべて

インテリジェント製造の分野では、AI 駆動型デジタルツインが重要な技術となっています。デジタル ツイ...

ゲーム依存症対策は年々厳しくなり、顔認証対策は厳しすぎるとの報道も

[[415155]]未成年者のゲームプレイの問題に関しては、依存症防止システムが厳しすぎると不満を言...

「顔認識」は「性格認識」を生み出しました。テクノロジーが善のために使われるようになるまでにはどれくらい時間がかかるのでしょうか?

最近、顔認識の新技術に関する記事が科学誌「サイエンティフィック・リポーツ」に掲載された。ロシアの研究...

...