チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回答を出力することさえできます。

しかし、単純なビジュアルロジックパズルを解く機能が欠けています。

画面上に並べられた一連の明るい色のブロックで構成されるテストでは、ほとんどの人が接続パターンを見つけることができます。

しかし、5月に研究者が発表した報告書によると、GPT-4は、ある種類のパターンでは約3分の1しか正しく認識できず、別の種類のパターンではわずか3パーセントしか正しく認識できなかったという。

論文アドレス: https://arxiv.org/pdf/2305.07141.pdf

この研究の背後にあるチームは、AI システムの機能をテストするためのより優れたベンチマークを提供し、GPT-4 のような大規模な言語モデルによる困難な問題の解決を支援することを目指しています。

論文の著者であるメラニー・ミッチェル氏は、人工知能分野の人々はこれらのシステムをどのように評価するかに苦慮していると述べた。

AI評価はどれくらい効果的ですか?

過去 2 ~ 3 年で、LLM はさまざまなタスクを完了する能力において以前の AI システムを上回りました。

これらは、数十億のオンライン文章内の単語間の統計的相関に基づいて、入力テキストに対して妥当な次の単語を生成するという単純な仕組みで機能します。

LLM 上に構築されたチャットボットには、追加の要素があります。人間のトレーナーがボットの応答を微調整するために多くのフィードバックを提供します。

驚くべきことに、このオートコンプリートのようなアルゴリズムは、膨大な人間の言語データに基づいてトレーニングされており、その機能の幅広さは息を呑むほどです。

他の AI システムは、あるタスクでは LLM に勝てるかもしれませんが、特定の問題に関連するデータでトレーニングする必要があり、あるタスクから別のタスクに一般化することはできません。

ハーバード大学の認知科学者トマー・ウルマン氏は、大まかに言えば、2つの陣営の研究者は法学修士課程の舞台裏で何が起こっているかについて相反する見解を持っていると語る。アルゴリズムの成果は、瞬時の推論や理解によるものだと考える人もいる。彼自身やミッチェルを含む他の人々は、はるかに慎重だった。

議論に参加した双方の研究者は、人間とAIシステムの能力の違いを明らかにする論理パズルのようなテストは正しい方向への一歩だと述べた。

ニューヨーク大学の認知コンピューティング科学者ブレンデン・レイク氏は、このようなベンチマークは、今日の機械学習システムの欠点を明らかにし、人間の知能の要素を引き出すのに役立つと述べている。

LLM をテストする最良の方法とこれらのテストの意味に関する研究も有用です。

ミッチェル氏は、医学や法律など現実世界のさまざまな分野にLLMを応用したいと考えていると述べました。彼らの能力の限界を理解することが重要です。

チューリングテストは死んだのか?

機械知能の最も有名なテストは、長い間チューリングテストでした。

チューリングテストは、コンピューターがまだ初期段階だった1950年に、イギリスの数学者でコンピューターの第一人者であるアラン・チューリングによって提案されました。

チューリングは「模倣ゲーム」と呼ぶ評価法を提案した。

このシナリオでは、「人間の審査員」がコンピューターと目に見えない人物と短いテキストベースの会話を交わします。

この人間はどれがコンピューターであるかを確実に検出できるでしょうか?チューリングは、これは「機械は考えることができるか?」という質問と同等の質問だと言いました。

ミッチェル氏は、チューリングがシナリオの詳細をあまり指定しなかったため、従うべき厳密な基準は存在しないと指摘している。

他の研究者は、GPT-4 や他の LLM は、少なくとも短い会話では多くの人を騙すことができるため、「チューリング テスト」に合格する可能性が高いと考えています。

5月に、AI21研究所の研究者らは、チューリングテストに基づいたオンラインゲームを150万人以上がプレイしたと報告した。

プレイヤーがボットを正しく識別できたのはわずか 60 パーセントで、偶然と大差ありませんでした。

しかし、このゲームでは、LLM に精通した研究者が勝つ可能性があります。 LLM は、AI システムの既知の弱点を悪用することで簡単に発見できます。

重要なのは、LLM を「快適ゾーン」から抜け出させることです。

Google のソフトウェア エンジニアである François Chollet 氏は、トレーニング データで頻繁に見られるシナリオのバリエーションである LLM シナリオを示すことを提案しました。多くの場合、LLM は、新しいシナリオの正しい答えではなく、トレーニング データ内の元の質問に最も関連していると思われる単語を吐き出して応答しました。

しかし、Chollet 氏らは、欺瞞中心のテストがコンピューター サイエンスの目標であるかどうかについては懐疑的です。

ベンチマークは危険

代わりに、研究者は通常、チューリングテストではなく、言語、常識的推論、数学などの特定の能力のパフォーマンスを評価するために設計されたベンチマークを使用して AI システムを評価します。

人間向けに設計された学術試験や専門試験に注目する研究チームも増えています。

GPT-4 がリリースされたとき、OpenAI は読解力、数学、コーディングなど、機械向けに設計された一連のベンチマークでそのパフォーマンスをテストしました。

技術レポートによると、GPT-4 はこれらのテストのほとんどで優れた結果を達成しました。

さらに、GPT-4は、アメリカの医師の臨床知識の現状を評価する試験であるGREや、アメリカの高校生向けに設計されたさまざまな科目別の試験など、30のテストにも参加しました。

研究者らが後に言及した課題の 1 つは、モデルが大量のテキストでトレーニングされており、トレーニング データで同様の質問を見たことがある可能性があるため、実際には答えを探している可能性があるということです。この質問は実際には「汚染」されています。

研究者らはまた、法学修士課程の学生が試験問題で成功するかどうかは当たり外れがあり、実社会で必要とされる高い能力につながらない可能性もあると指摘している。

これらのベンチマークが何を意味するのかを解釈するとなると、より深刻な問題が存在します。

このテストで良い成績を収めた人は、一般的に他の認知テストでも良い成績を収め、特定の抽象的な概念を習得していると想定できます。

しかし、LLM の動作は人間とはまったく異なります。したがって、人間を判断するのと同じ方法を使用して AI システムを推論することは、必ずしも効果的ではありません。

これは、LLM では言語からしか学習できないためであると考えられます。物理的な世界にいなければ、人間と同じように、物体、特性、感情に関連する言語を体験することはできません。

彼らが人間とは違った方法で言葉を理解していることは明らかです。

一方、LLM には人間にはない能力もあり、たとえば、人間が書いたほぼすべての単語間のつながりを知っています。

OpenAIの研究者であるニック・ライダー氏は、テストの成績は、同じスコアを取った人々の間では普遍的ではない可能性があることに同意している。

「人間と大規模言語モデルの評価から同等性の結論を導き出すべきではないと思う」と彼は語った。 OpenAIのスコアは「人間の能力や推論力を表すものではない。モデルがそのタスクでどれだけ優れたパフォーマンスを発揮したかを示すことを意図している」。

AI研究者は、LLMの長所と短所を特定するには、より広範かつ厳密な精査が必要だと述べている。カラフルな論理パズルも候補の一つかもしれません。

論理パズルが現実に

2019年、LLMが普及する前、ショレット氏は自身が作成した「抽象化および推論コーパス(ARC)」と呼ばれるAIシステム用の新しい論理テストをオンラインに投稿した。

解答者は、いくつかの正方形が別のパターンに変化する視覚的なデモンストレーションを見て、次の正方形がどのように変化するかを示すことで、変化の基本的なルールを習得していることを示します。

ARCは「人間の知能の特徴」を捉えたとショレ氏は語った。日常的な知識を抽象化し、それをこれまでに見たことのない問題に適用する能力。

これまでにいくつかの研究チームが ARC を使用して LLM の機能をテストしてきましたが、人間に近いパフォーマンスを達成したチームはありません。

ミッチェル氏とその同僚は、ARC にヒントを得たが 2 つの重要な点で異なる、ConceptARC と呼ばれる新しいパズル シリーズを作成しました。

ConceptARC テストは簡単です。ミッチェル氏のチームは、ベンチマークでマシンの能力の小さな進歩さえも見逃さないようにしたいと考えています。もう 1 つの違いは、チームがテストする特定の概念を選択し、各テーマのバリエーションとして一連のパズルを作成することです。

パフォーマンスが低いとはどういう意味ですか?

研究者らは、GPT-4と400人のオンライン応募者にConceptARCタスクを割り当てた。

人間はすべての概念グループで平均 91% のスコアを獲得しました (1 つのグループでは 97%)。GPT は 1 つのグループで 33% のスコアを獲得し、他のすべてのグループでは 30% 未満のスコアを獲得しました。

研究者たちは、AI がまだ人間のパフォーマンスに近づくことができないことを証明しました。しかし驚くべきことに、これまで訓練されたことのない問題も解決できるのです。

研究チームは、Chollet コンテストでトップのチャットボットもテストしました。

全体的に、GPT-4 よりは優れていましたが、人間よりは劣っており、1 つのカテゴリでは 77% という最高スコアを獲得しましたが、ほとんどのカテゴリでは 60% 未満でした。

しかし、ボウマン氏は、GPT-4がConceptARCテストに失敗したからといって、GPT-4が基本的な抽象的推論能力を欠いているということが証明されるわけではないと述べた。

実際、ConceptARC には GPT-4 に対していくつかの欠点があり、その理由の 1 つはそれが視力テストであることです。

現在、GPT-4 は入力としてテキストのみを受け入れることができるため、研究者は画像を表す数値の配列を GPT-4 に入力しました。対照的に、人間の参加者は画像を見ました。

演繹的推論

ボウマン氏は、他の実験と合わせて考えると、LLM は少なくとも抽象的な概念について推論する基本的な能力を獲得していることを示唆していると指摘しています。

しかし、LLM の推論能力は一般に「不均一」であり、人間の推論能力よりも限られています。ただし、LLM のパラメータ サイズが増加すると、推論能力もそれに応じて増加します。

多くの研究者は、LLM の抽象的推論能力やその他の知能の兆候をテストする最良の方法は、未解決の問題として残っていることに同意しています。

<<: 

>>:  ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人工知能統計調査:AIの普及により1億2000万人の労働者が再訓練を必要とする

AI の健全性と進歩に関する最近の調査、研究、予測、その他の定量的評価では、労働力の再訓練の必要性、...

メタバースの目!メタの機械式バイオニックアイの特許が明らかになり、バイオニック人体に搭載される予定

ロボットの皮膚、空気圧触覚手袋... Meta は将来のメタバースに、よりリアルな触覚インタラクショ...

小規模、高効率:DeepMind がマルチモーダル ソリューション Mirasol 3B を発表

マルチモーダル学習が直面している主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種のモダリ...

Meitu Xiuxiuが最新の自社開発大型モデルを発売し、さまざまなAIGCゲームプレイを直接体験できる

Meituが自社開発したビッグモデル3.0が正式リリース!そしてそれはMeituのイメージングおよび...

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

[[347640]] Facebookはまた失敗したのか?フェイスブックは昨日、自社の機械翻訳が画期...

AI、IoT、ビッグデータでミツバチを救う方法

現代の農業はミツバチに依存しています。私たちが食べる食物や呼吸する空気を含む生態系のほぼ全体が、花粉...

...

人間はAIの課題にどう立ち向かうのか

経済学者が懸念している大きな問題は、人工知能が雇用にどのような影響を与えるかということです。人工知能...

崑崙Core2が量産開始:性能が2~3倍向上し、中国の産業知能に強力な「コア」を注入

8月18日、百度とCCTVニュースは共同で「百度ワールド2021」カンファレンスを開催し、AIが何千...

ホワイトハウスのAIに関する大統領令がサイバーセキュリティリーダーに何を意味するか

AIは引き続きテクノロジーの注目を集めており、2023年の最後の四半期を迎えるにあたり、AIの力を活...

中国科学院とアリババが開発したFF3Dでは、カスタムスタイルの3Dポートレートを作成するのにわずか3分しかかかりません。

3D ポートレート合成は、常に AIGC の注目を浴びている分野です。 NeRF と 3D 対応 ...

自動運転チップの秘密を解明

インテリジェントコネクテッドビークル時代の到来により、自動運転技術が業界の注目を集めるようになりまし...

...