GPT-4 はグラフィカル推論を実行できないのですか? 「手放す」後も、正解率は33%にとどまる

GPT-4 はグラフィカル推論を実行できないのですか? 「手放す」後も、正解率は33%にとどまる

GPT-4 のグラフィカル推論能力は人間の半分以下?

米国のサンタフェ研究所の調査によると、 GPT-4 がグラフィック推論問題を解く際の精度はわずか 33% です

マルチモーダル GPT-4v のパフォーマンスはさらに悪く、質問の 25% しか正しく回答できませんでした。

点線は 16 個のタスクの平均パフォーマンスを表します。

この実験の結果が発表されると、YC 上ですぐに広範囲にわたる白熱した議論が巻き起こりました。

この結果に同意するネットユーザーは、GPTは確かに抽象的なグラフィックス処理が苦手であり、「位置」や「回転」などの概念を理解するのがより難しいと述べました。

しかし一方で、多くのネットユーザーもこの結論に疑問を抱いている。簡単に言えば、

間違っているとは言えませんが、完全に正しいと言うのも説得力がありません。

具体的な理由については、引き続き読み進めてください。

GPT-4の精度はわずか33%

これらのグラフィックの質問に対する人間と GPT-4 のパフォーマンスを評価するために、研究者らは今年 5 月に自らの機関が立ち上げた ConceptARC データセットを使用しました。

ConceptARC には、グラフィック推論問題の 16 のサブカテゴリ (各カテゴリに 30 問、合計 480 問) が含まれています。

これら 16 のサブカテゴリは、位置関係、形状、操作、比較などの複数の側面をカバーします。

具体的には、これらの質問はピクセルブロックで構成されており、人間と GPT は与えられた例に基づいてパターンを見つけ、画像を同じように処理した後に結果を分析する必要があります。

著者は、論文の中で、これらの 16 のサブカテゴリについて、カテゴリごとに 1 つずつ、具体的な質問例を示しています。



結果によると、451人の被験者の平均正解率は各サブ項目で83%以上であり、16のタスクの平均は91%に達した。

しかし、GPT-4(単一サンプル)で質問を3回試行(1回正解すれば正解とみなす)した場合、最高正解率は60%を超えず、平均は33%にとどまります。

以前、この実験に関わったConceptARCベンチマークの著者らも同様の実験を行ったが、GPT-4ではゼロサンプルテストが行​​われ、16のタスクの平均精度はわずか19%だった。

マルチモーダル GPT-4v の精度率はさらに低くなります。48 の質問で構成される小規模な ConceptARC データセットでは、ゼロショット テストとシングルショット テストの精度率はそれぞれわずか 25% と 23% です。

研究者らは、誤答をさらに分析した結果、人間が犯した間違いの一部は「不注意」によって引き起こされたと思われる一方で、GPTは単に質問のパターンを理解できなかったことを発見した。

ネットユーザーは一般的にこれらのデータについて疑問を抱いていないが、この実験を非常に疑問視しているのは、募集された被験者とGPTの入力方法である。

被験者の選定方法が疑問視された

当初、研究者らはアマゾンのクラウドソーシングプラットフォームで被験者を募集した。

研究者らは、入門レベルのテストとしてデータセットからいくつかの簡単な質問を選択しました。被験者は、正式なテストに進む前に、ランダムに選ばれた 3 つの質問のうち少なくとも 2 つに正しく答える必要があります

その結果、研究者らは、入学試験の結果から、一部の人はただお金が欲しかっただけで、要求された質問に答えなかったことがわかったことを発見した。

最後の手段として、研究者らはテスト参加の基準を、プラットフォーム上で少なくとも2,000のタスクを完了し、合格率が99%になるように引き上げた

しかし、著者は合格率で選抜しているものの、具体的な能力に関しては、英語力があることを条件としているほか、グラフィックなどの他の専門能力については「特別な要件はない」としている

研究者らはデータを多様化するために、実験の後半段階で被験者募集作業を別のクラウドソーシングプラットフォームに移管し、最終的に合計415人の被験者が実験に参加した。

それにもかかわらず、実験のサンプルが「十分にランダムではなかった」と疑問を呈する人もいた。

他のネットユーザーは、研究者が被験者を募集するために使用するアマゾンのクラウドソーシングプラットフォームに、人間のふりをした巨大なモデルが存在すると指摘した。

GPT の動作を見てみましょう。マルチモーダル バージョンは比較的簡単です。画像をアップロードして、次のプロンプト ワードを使用するだけです。

ゼロサンプルテストでは、対応するEXAMPLE部分を削除するだけです。

ただし、マルチモーダル性のないGPT-4のプレーンテキスト版(0613)では、画像をグリッドポイントに変換し、色の代わりに数字を使用する必要があります。

この作戦に反対する人もいた。

画像をデジタルマトリックスに変換すると、概念は完全に変わります。数字で表された「グラフィック」は、人間でも理解できない場合があります。

もう一つ

偶然にも、スタンフォード大学の中国人博士課程学生であるジョイ・スー氏も、幾何学データセットを使用して、GPT-4v のグラフィックス理解能力をテストしました。

このデータセットは、大規模モデルのユークリッド幾何学の理解をテストすることを目的として昨年公開されました。GPT-4v が公開された後、Hsu 氏はこのデータセットを使用して再度テストを行いました。

結果は、GPT-4v がグラフィックスを理解する方法が「人間とはまったく異なる」ように見えることを示しました。

データの観点から見ると、これらの幾何学の質問に対する GPT-4v の回答も人間に比べて大幅に劣っています。

論文の宛先:
[1] https://arxiv.org/abs/2305.07141
[2] https://arxiv.org/abs/2311.09247

<<: 

>>:  交渉は失敗しました!ウルトラマンはOpenAIへの復帰に失敗し、Twitchの創設者が新CEOに就任

ブログ    
ブログ    

推薦する

高密度の手動ラベルなしで下流の高密度予測タスクを実行するための自己教師学習法がリリースされました

[[399115]]事前トレーニングにより、下流のタスクのパフォーマンスが大幅に向上することが示され...

自動運転技術のアルゴリズムを研究するにはどのような知識が必要ですか?

自動運転システムには、環境認識と位置決め、行動予測、計画制御が含まれます。自動運転認識アルゴリズムエ...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

...

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

Google の内部対立が激化!従業員が共同書簡に署名:AIマスターのジェフ・ディーン氏は謝罪すべき!

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

このモデルは数十万ドルの費用がかかり、数え切れないほどのプロジェクトを導いたのに、使用されたネガティブサンプルがゼロだったことが判明したのですか?

今日の人気のディープラーニング モデルはブラック ボックスであるとよく言われます。つまり、入力を与え...

Google内部関係者、Bardチャットボットの有用性に疑問

10月12日、ブルームバーグは昨夜、グーグルとDiscordが共同で自社のAIチャットボット「Bar...

AIGCの6つの主なリスク

ChatGPTを運営するOpenAIのCEOサム・アルトマン氏は最近、議会公聴会で政府によるAIの規...

...

AI+医療:医療を救うには医師が率先して行動しなければならない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

速報です! OpenAIがByteDanceアカウントを禁止!コンテンツ生成のための GPT の不正使用に関する内部告発

ノアが編集海外メディアのザ・ヴァージは北京時間今朝未明、生成AIをめぐる熾烈な競争の中で、バイトダン...

集中治療室における人工知能の未来

他の業界と同様に、ヘルスケアにおける AI の応用と議論は幅広く行われています。 AIはすでに診断の...

良いプロンプトを書くときは、これらの 6 つのポイントを覚えておいてください。覚えていますか?

効果的なプロンプトを書くことは、AI とのやり取りを成功させるための鍵となります。優れたプロンプトは...