とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

とても驚きました! GPT-4V錯視チャレンジ記録: 間違っているはずのものは間違っていない、間違っているはずのないものも間違っている

GPT-4V は視覚エラーマップに挑戦し、その結果は「衝撃的」でした。

「どちらの側が明るいですか」のような質問には正しく答えられません。

写真に隠された情報を読んでいる人たちも混乱していて、理解できません。いくら聞いても「いいえ」としか言いません。

しかし、人間が一目見れば間違いなく間違えるであろうこの図に、見事に答えました。

そして、このような見当違いの絵は、正しいのですが、完全に正しいわけではありません。 。

(GPT-4Vは、ヘルメットが男性の太ももにあり、女性がいないことを直接確認できますが、それでも写真には2人の人物がいて、もう1人は男性の後ろに隠れてヘルメットをかぶっていることがわかります==)。

これを読んで、混乱したと感じますか?

それは「正しいはずのことが間違っていて、間違っているはずのことが正しい」というものです。


テスターたちはこう語った。

テスト前は、GPT-4V がこの課題に問題なく対処できると考えていましたが、結果は次のようになりました。

彼だけでなく、ネットユーザーも、非常に知能が高いはずの「正確な」AIシステムであるGPT-4Vが、なぜ人間と同じ錯覚を起こすのか理解できないのでしょうか?

それで、何が起こっているのでしょうか?

GPT-4V 5つの錯覚チャレンジ

以下はネットユーザーからのさらなるテストケースです。

まず最初は色の錯覚に関する質問ですが、私は毎回間違えていました。

冒頭の 2 枚の小さな木の写真に加えて、次の写真もあります。

どちらの側の緑が明るいかと聞かれると、左側が明るく右側が暗いように見えますが、実際は同じです。

次はもう少し複雑な例です:

両目とも実際には灰色ですが、GPT-4Vに画像の説明を依頼したところ、片方の目は青色で、もう片方はグレースケールで処理されているため色は判別できないと回答しました。

言うまでもなく、私は完全に騙されました。

もちろん、これは難しいことであり、ほとんどの人間はすべてのボールが茶色であることを認識することはできません。

2つ目は、ダイナミックな錯覚を生み出す写真です。

GPT-4Vに「何が見えましたか?詳細を説明してください」と尋ねたところ、これは長時間見ていると目がくらむような錯覚画像だと直接指摘されたのには少し驚きました。本質的には単なる波線でした。

これも彼を悩ませませんでした。

しかし不思議なことに、絵には何色あるかと尋ねると、黄色と青しか認識できず、白と黒は認識できないのです。

次は、比較的平坦な別のタイプの錯覚です。

冒頭で示したように:

普通の人間なら本当に混乱するでしょうが、GPT-4V は実際に正しかったのです。

でも、焦らないでください! !誰かがテスターの写真を撮り、「自分の」GPT-4V にもう一度確認するように依頼したところ、実際に答えが変わりました。

しかし、まだ終わりではありません。コメント欄に驚きの入れ子人形作戦があり、この二人の会話写真を撮ってGPT-4Vに再度質問する人がいたのですが、どうなったと思いますか?元に戻されました。 。

みんなこのゲームに夢中になって、何度も何度もマトリョーシカを遊んでいました。幸いなことに、GPT-4V は最終的に独自の意見を貫きました。

全体的に、この錯覚トラップにはまったく問題はありません。

私たち自身も長さの錯覚に関する質問をテストしました。

結果はとても簡単です~

ここに隠された情報を見つけるための別の写真セットがあります。

残念ながら、GPT-4V は人間にとっては非常に簡単なこの種の問題を処理できません。

まずこの写真を見てください。遠くから見ると、大文字の「NYC」が3つ見えます。しかし、そこには意味不明なことが書かれており、隠された情報は見つからなかったことになります。

戸別配達サービスが少しわかりにくい場合は、見えなくても問題ありません。しかし、この種のグラフィックの非表示には、これも機能しません。

それは、中にいる小さな女の子についてのみ描写しており、たとえテスターが「さらに遠くを見ても何も新しいものは見つからない」と指示したとしても、何の役にも立たなかった。

ただし、手動で画像を縮小して入力すると、機能して頭蓋骨が表示されます。

最後に、現実世界のずれ画像のセットを示します。

冒頭に写っているバイクに乗っている人物のほか、この「浮いている」猫の写真も実は正解です。

このホラー絵もOKです。

しかし、これは失敗しました。なぜなら、実際には後ろに犬と赤ちゃんがいたのに、フレンチブルドッグの子犬だと思ったからです。

これに関しては、靴については全く触れられておらず、意味のない言葉がいくつか書かれているだけです。

なぜこのようなことが起こるのでしょうか?

では、なぜ一部の錯覚は認識できるのに、他の錯覚ではうまく機能しないのでしょうか?

まず、色彩錯覚の写真に関して、ネットユーザーはまずプロンプト語の問題だと考えた。

2 本の小さな木の写真のように、「どちらが明るいですか」と尋ねると、実際には GPT-4V にヒントやバイアスを与えており、GPT-4V は私たちのバイアスに応じて答えます。

私たち自身のテストでも同様の結果が出ました。

しかし、偏見なく尋ねてみると、写真の2つの色は同じでしょうか?全然大丈夫ですよ。

しかし、一部のネットユーザーは、どの木がより明るいかを尋ねたところ、すべてのピクセルを厳密に平均化した場合、GPT-4Vの答えには何の問題もないと指摘しました。

ネットユーザーの中には、測色計を使って測った人もいる。


しかし!一部だけを見せれば、2つは明らかに同じものだと指摘する人もいました。

この問題については今は議論しないでおこう。確かなのは、「手がかりとなる言葉」の使い方が判断に影響を与えるという問題はないということだ。

さらに、ネットユーザーは次のことを発見しました。

GPT-4V に再度確認を依頼すると、回答を修正することもできます。

遠くの画像を認識できない理由については、GPT-4V が画像を左から右にしか読み取れないためではないかと考えるネットユーザーもいる。

「なぜ人間のようにめまいを起こしたり錯覚に陥ったりして、全然知的なAIらしくない行動をしてしまうのか」という疑問については、これは驚くことではなく、訓練の問題だと答える人が多かったです。

つまり、大規模なモデルは人間のデータ、人間のフィードバック、人間の注釈に基づいてトレーニングされるため、当然人間と同じ間違いを犯します。

そのため、一部の人々は冗談を言いました。

私たち人間は、AI がいかにクールで完璧であるかを描いた SF 作品を数多く生み出してきたようですが、実際に AI が実現すると、それは特別なことではないことがわかります。

(手動犬頭)

GPT-4V の錯覚認識能力をさらに強化するにはどうすればいいと思いますか?

もう一つ

これらのケースのいくつかもテストしたことを言及する価値があります。

GPT-4V のパフォーマンスはかなり異なることがわかりました。「ここ」のいくつかの質問については問題ありませんでした。

たとえば、これはボールの色を判断します:

そしてこれ:

大きな像は骸骨ではなく老婆として認識されているが、それでも「遠くから」見ることができることを示している。

参考リンク:
[1] https://twitter.com/fabianstelzer/status/1717131235644875024.

[2] https://twitter.com/BeyondTodAI/status/1713279431681118557.

[3]https://twitter.com/janbobrowicz/status/1717229335076393350.

<<:  マスク氏のChatGPTバージョンが急成長中! Pythonなしで11人が2か月間懸命に働いた

>>:  Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

ブログ    
ブログ    
ブログ    

推薦する

AIが業界全体でビジネス成果をどのように変革しているか

昨年末以来、人工知能の発展の勢いは止められないようです。 GPT-4 のような並外れた認知能力を備え...

...

...

...

ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

ソラの登場はAI界全体に熱狂を巻き起こしたが、ルカンは例外だった。 OpenAI による Sora ...

Baidu World 2018 の開会式で最初の切り札が切られました。Baidu AI City が新しい世界への機関車としてスタートしました!

スマートカーからスマート道路、スマートシティまで、「複雑な世界をよりシンプルに」という百度の使命によ...

OpenAI の人事異動は、Nvidia、AMD、Intel、Microsoft にどのような影響を与えるでしょうか?

OpenAI の人事異動の影響:ウルトラマンが勝つ彼はついに株式を取得することができました!マイク...

4つの高性能なデータ型、Pythonコレクションはコードの最適化とタスクの簡素化に役立ちます

この記事では、機械学習エンジニアの George Seif が、Python のコレクション モジュ...

オープンソース! Gartner の 100 ページの機械学習ブックが無料でダウンロードできるようになりました。

今日の大企業は、産業化以来最大の変革を経験しています。人工知能は、産業や私たちの働き方、考え方、交流...

AIの偏見を公平に防ぐ方法

人工知能 (AI) には、ビジネス運営に革命を起こす大きな可能性があります。実際、ある調査によると、...

2020年以降のAIトレンド

機械で書かれたニュース記事、AI 主導のサイバーセキュリティ、感情検出における重要な進歩など、201...

Googleの上級研究員が解雇される:論文論争の裏側

[51CTO.com クイック翻訳] 12月初旬、Googleは著名なAI倫理研究者のティムニット・...

将来、人工知能が仕事を奪うことになるのでしょうか?

「将来、AI が仕事を奪うようになるか?」と尋ねると、おそらく周囲の人々からさまざまな意見が返って...

5歳の子供がAIを圧倒、「遊ぶ」だけで十分か?

この能力がアルゴリズムによって習得された後、AlphaGo は人間のチェスの名人を破り、OpenAI...