チューリングテストは死んだ！ ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回答を出力することさえできます。

しかし、単純なビジュアルロジックパズルを解く機能が欠けています。

画面上に並べられた一連の明るい色のブロックで構成されるテストでは、ほとんどの人が接続パターンを見つけることができます。

しかし、5月に研究者が発表した報告書によると、GPT-4は、ある種類のパターンでは約3分の1しか正しく認識できず、別の種類のパターンではわずか3パーセントしか正しく認識できなかったという。

論文アドレス: https://arxiv.org/pdf/2305.07141.pdf

この研究の背後にあるチームは、AI システムの機能をテストするためのより優れたベンチマークを提供し、GPT-4 のような大規模な言語モデルによる困難な問題の解決を支援することを目指しています。

論文の著者であるメラニー・ミッチェル氏は、人工知能分野の人々はこれらのシステムをどのように評価するかに苦慮していると述べた。

AI評価はどれくらい効果的ですか?

過去 2 ～ 3 年で、LLM はさまざまなタスクを完了する能力において以前の AI システムを上回りました。

これらは、数十億のオンライン文章内の単語間の統計的相関に基づいて、入力テキストに対して妥当な次の単語を生成するという単純な仕組みで機能します。

LLM 上に構築されたチャットボットには、追加の要素があります。人間のトレーナーがボットの応答を微調整するために多くのフィードバックを提供します。

驚くべきことに、このオートコンプリートのようなアルゴリズムは、膨大な人間の言語データに基づいてトレーニングされており、その機能の幅広さは息を呑むほどです。

他の AI システムは、あるタスクでは LLM に勝てるかもしれませんが、特定の問題に関連するデータでトレーニングする必要があり、あるタスクから別のタスクに一般化することはできません。

ハーバード大学の認知科学者トマー・ウルマン氏は、大まかに言えば、2つの陣営の研究者は法学修士課程の舞台裏で何が起こっているかについて相反する見解を持っていると語る。アルゴリズムの成果は、瞬時の推論や理解によるものだと考える人もいる。彼自身やミッチェルを含む他の人々は、はるかに慎重だった。

議論に参加した双方の研究者は、人間とAIシステムの能力の違いを明らかにする論理パズルのようなテストは正しい方向への一歩だと述べた。

ニューヨーク大学の認知コンピューティング科学者ブレンデン・レイク氏は、このようなベンチマークは、今日の機械学習システムの欠点を明らかにし、人間の知能の要素を引き出すのに役立つと述べている。

LLM をテストする最良の方法とこれらのテストの意味に関する研究も有用です。

ミッチェル氏は、医学や法律など現実世界のさまざまな分野にLLMを応用したいと考えていると述べました。彼らの能力の限界を理解することが重要です。

チューリングテストは死んだのか？

機械知能の最も有名なテストは、長い間チューリングテストでした。

チューリングテストは、コンピューターがまだ初期段階だった1950年に、イギリスの数学者でコンピューターの第一人者であるアラン・チューリングによって提案されました。

チューリングは「模倣ゲーム」と呼ぶ評価法を提案した。

このシナリオでは、「人間の審査員」がコンピューターと目に見えない人物と短いテキストベースの会話を交わします。

この人間はどれがコンピューターであるかを確実に検出できるでしょうか?チューリングは、これは「機械は考えることができるか？」という質問と同等の質問だと言いました。

ミッチェル氏は、チューリングがシナリオの詳細をあまり指定しなかったため、従うべき厳密な基準は存在しないと指摘している。

他の研究者は、GPT-4 や他の LLM は、少なくとも短い会話では多くの人を騙すことができるため、「チューリングテスト」に合格する可能性が高いと考えています。

5月に、AI21研究所の研究者らは、チューリングテストに基づいたオンラインゲームを150万人以上がプレイしたと報告した。

プレイヤーがボットを正しく識別できたのはわずか 60 パーセントで、偶然と大差ありませんでした。

しかし、このゲームでは、LLM に精通した研究者が勝つ可能性があります。 LLM は、AI システムの既知の弱点を悪用することで簡単に発見できます。

重要なのは、LLM を「快適ゾーン」から抜け出させることです。

Google のソフトウェアエンジニアである François Chollet 氏は、トレーニングデータで頻繁に見られるシナリオのバリエーションである LLM シナリオを示すことを提案しました。多くの場合、LLM は、新しいシナリオの正しい答えではなく、トレーニングデータ内の元の質問に最も関連していると思われる単語を吐き出して応答しました。

しかし、Chollet 氏らは、欺瞞中心のテストがコンピューターサイエンスの目標であるかどうかについては懐疑的です。

ベンチマークは危険

代わりに、研究者は通常、チューリングテストではなく、言語、常識的推論、数学などの特定の能力のパフォーマンスを評価するために設計されたベンチマークを使用して AI システムを評価します。

人間向けに設計された学術試験や専門試験に注目する研究チームも増えています。

GPT-4 がリリースされたとき、OpenAI は読解力、数学、コーディングなど、機械向けに設計された一連のベンチマークでそのパフォーマンスをテストしました。

技術レポートによると、GPT-4 はこれらのテストのほとんどで優れた結果を達成しました。

さらに、GPT-4は、アメリカの医師の臨床知識の現状を評価する試験であるGREや、アメリカの高校生向けに設計されたさまざまな科目別の試験など、30のテストにも参加しました。

研究者らが後に言及した課題の 1 つは、モデルが大量のテキストでトレーニングされており、トレーニングデータで同様の質問を見たことがある可能性があるため、実際には答えを探している可能性があるということです。この質問は実際には「汚染」されています。

研究者らはまた、法学修士課程の学生が試験問題で成功するかどうかは当たり外れがあり、実社会で必要とされる高い能力につながらない可能性もあると指摘している。

これらのベンチマークが何を意味するのかを解釈するとなると、より深刻な問題が存在します。

このテストで良い成績を収めた人は、一般的に他の認知テストでも良い成績を収め、特定の抽象的な概念を習得していると想定できます。

しかし、LLM の動作は人間とはまったく異なります。したがって、人間を判断するのと同じ方法を使用して AI システムを推論することは、必ずしも効果的ではありません。

これは、LLM では言語からしか学習できないためであると考えられます。物理的な世界にいなければ、人間と同じように、物体、特性、感情に関連する言語を体験することはできません。

彼らが人間とは違った方法で言葉を理解していることは明らかです。

一方、LLM には人間にはない能力もあり、たとえば、人間が書いたほぼすべての単語間のつながりを知っています。

OpenAIの研究者であるニック・ライダー氏は、テストの成績は、同じスコアを取った人々の間では普遍的ではない可能性があることに同意している。

「人間と大規模言語モデルの評価から同等性の結論を導き出すべきではないと思う」と彼は語った。 OpenAIのスコアは「人間の能力や推論力を表すものではない。モデルがそのタスクでどれだけ優れたパフォーマンスを発揮したかを示すことを意図している」。

AI研究者は、LLMの長所と短所を特定するには、より広範かつ厳密な精査が必要だと述べている。カラフルな論理パズルも候補の一つかもしれません。

論理パズルが現実に

2019年、LLMが普及する前、ショレット氏は自身が作成した「抽象化および推論コーパス（ARC）」と呼ばれるAIシステム用の新しい論理テストをオンラインに投稿した。

解答者は、いくつかの正方形が別のパターンに変化する視覚的なデモンストレーションを見て、次の正方形がどのように変化するかを示すことで、変化の基本的なルールを習得していることを示します。

ARCは「人間の知能の特徴」を捉えたとショレ氏は語った。日常的な知識を抽象化し、それをこれまでに見たことのない問題に適用する能力。

これまでにいくつかの研究チームが ARC を使用して LLM の機能をテストしてきましたが、人間に近いパフォーマンスを達成したチームはありません。

ミッチェル氏とその同僚は、ARC にヒントを得たが 2 つの重要な点で異なる、ConceptARC と呼ばれる新しいパズルシリーズを作成しました。

ConceptARC テストは簡単です。ミッチェル氏のチームは、ベンチマークでマシンの能力の小さな進歩さえも見逃さないようにしたいと考えています。もう 1 つの違いは、チームがテストする特定の概念を選択し、各テーマのバリエーションとして一連のパズルを作成することです。

パフォーマンスが低いとはどういう意味ですか?

研究者らは、GPT-4と400人のオンライン応募者にConceptARCタスクを割り当てた。

人間はすべての概念グループで平均 91% のスコアを獲得しました (1 つのグループでは 97%)。GPT は 1 つのグループで 33% のスコアを獲得し、他のすべてのグループでは 30% 未満のスコアを獲得しました。

研究者たちは、AI がまだ人間のパフォーマンスに近づくことができないことを証明しました。しかし驚くべきことに、これまで訓練されたことのない問題も解決できるのです。

研究チームは、Chollet コンテストでトップのチャットボットもテストしました。

全体的に、GPT-4 よりは優れていましたが、人間よりは劣っており、1 つのカテゴリでは 77% という最高スコアを獲得しましたが、ほとんどのカテゴリでは 60% 未満でした。

しかし、ボウマン氏は、GPT-4がConceptARCテストに失敗したからといって、GPT-4が基本的な抽象的推論能力を欠いているということが証明されるわけではないと述べた。

実際、ConceptARC には GPT-4 に対していくつかの欠点があり、その理由の 1 つはそれが視力テストであることです。

現在、GPT-4 は入力としてテキストのみを受け入れることができるため、研究者は画像を表す数値の配列を GPT-4 に入力しました。対照的に、人間の参加者は画像を見ました。

演繹的推論

ボウマン氏は、他の実験と合わせて考えると、LLM は少なくとも抽象的な概念について推論する基本的な能力を獲得していることを示唆していると指摘しています。

しかし、LLM の推論能力は一般に「不均一」であり、人間の推論能力よりも限られています。ただし、LLM のパラメータサイズが増加すると、推論能力もそれに応じて増加します。

多くの研究者は、LLM の抽象的推論能力やその他の知能の兆候をテストする最良の方法は、未解決の問題として残っていることに同意しています。

<<:

>>: ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

ブログ

チューリングテストは死んだ！ ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

AI評価はどれくらい効果的ですか?

チューリングテストは死んだのか？

ベンチマークは危険

論理パズルが現実に

未来を変える5つのAIトレンド

スタートアップ企業がAIを活用して声優の「デジタルツイン」を開発し、声優自身の声を使ったコンテンツを生成する

298.2億ドル規模のロボット市場がなぜこれほど不振なのか？

ザッカーバーグはオープンソースのAGIを攻撃するために数百億ドルを投資します！ 600,000 個の H100 を消費して GPT-4 の計算能力を 50 倍に増加

人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語

AIの民主化：ローコードおよびノーコードソリューションの台頭

マスクとイリヤのプライベートメールがクロードによって解読され、OpenAIの暗号化された情報が公開され、Googleが損害を被った

推薦する

AIが私の本を盗作してAmazonで販売したのですか？！

プログラマーが夜遅くにPythonでニューラルネットワークを実行し、中学生のようにデスクランプを消す

言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく

いくつかの小さな図でディープラーニングを徹底的に説明します

技術的負債の高利クレジットカード: 最もよく知られているエンドツーエンドの機械学習プラットフォームを詳しく調べる

Tian Yuandong らの新しい研究: メモリのボトルネックを突破し、4090 で 7B の大規模モデルを事前トレーニング可能に

内部テスト中です！ Word、Excel、Outlookに機械学習が搭載される

RSA-PSSアルゴリズムを一緒に学びましょう

人工知能をより人間らしくする高齢者向けにAIをもっとデジタル化すべき

ブロックチェーンにおける主流のコンセンサスアルゴリズムの簡単な分析

科学者：大規模なAIモデルは小さなAIツールを自動的に生成できる

新しいAIは「人間の脳に潜り込み」、どんな外見が最も魅力的かを理解できる

具現化された知能の新時代！ VLAは、UIナビゲーションとロボット操作を備えた最強の基本モデルMagmaを歓迎します