Google DeepMindがAGIをランク付け、ChatGPTのランクはどこになるか推測してください

AGI（汎用人工知能）をどのように定義すればよいでしょうか？ 100 人の AI 専門家に答えを尋ねれば、おそらく関連性はあるものの異なる定義が 100 個返ってくるでしょう。

現段階では、AGI は AI 研究における重要かつ議論の多い概念です。AGI は最新世代の大規模言語モデル (LLM) に登場したと考える研究者もいれば、約 10 年以内に人工知能が人間を超えると予測し、現在の LLM が AGI であると主張する研究者もいます。

AGI の概念は、人工知能が達成しようとする目標、予測するもの、そしてそれがもたらすリスクを明らかにするものであるため、その概念を深く理解することが重要です。

AGI レベルはどのように分類するのでしょうか?自動運転のレベル（L0 自動運転なしなど）と同様に、このレベル区分は、人々のコミュニケーション能力、ルールの設定、自動運転の目標の定義に非常に役立ちます。この記事では、Google DeepMind の研究者が同様の AGI レベルを提案しています。分割原理によれば、ChatGPT は L1 Emerging AGI、Imagen は L3 Expert Narrow AI、AlphaGo は L4 Virtuouso Narrow AI に分類されます。

具体的には、AGI モデルを分類するためのフレームワークを提案しました。 Google DeepMind は、このフレームワークが自動運転レベルと同様に機能し、モデルの比較、リスクの評価、AGI に向けた進捗状況の測定のための共通言語を提供することを期待しています。

このフレームワークを開発するために、DeepMind は AGI の既存の定義を分析し、6 つの原則を抽出しました。

プロセスではなくモデルの機能に焦点を当てます。
汎用性とパフォーマンスに重点を置きます。
認知タスクとメタ認知タスクに焦点を当てます。
展開ではなく、可能性に焦点を当てます。
生態学的有効性に焦点を当てます。
目的地だけでなく、AGI までの道のりに焦点を当てます。

これらの原則に基づいて、DeepMind はパフォーマンスと汎用性の 2 つの側面から「AGI のレベル」を提案しました。

レベル 0: Amazon Mechanical Turk などの AI なし。
レベル 1: ChatGPT、Bard、Llama 2 など、未熟な人間と同等かそれ以上の能力を持つ新興レベル。
レベル 2: 有能で、人間のレベルの 50% に達していますが、幅広いタスクではまだ達成されていません。
レベル 3: エキスパートは、人間のレベルの 90% に達しますが、幅広いタスクではまだ達成されていませんが、Imagen と Dall-E 2 は特定のタスクでこれを達成しています。
レベル 4: マスター (Virtuoso) は、人間のレベルの 99% に達しますが、幅広いタスクではまだ達成されていません。Deep Blue と AlphaGo は特定のタスクでこれを達成しています。
レベル5: 超人的、人間の100%を超える。幅広いタスクではまだ達成されていないが、一部のタスクではAlphaFold、AlphaZero、StockFishによって達成されている。

論文アドレス: https://arxiv.org/pdf/2311.02462.pdf

AGI の 6 つの原則

DeepMind は、AGI の定義は次の 6 つの基準を満たす必要があると考えています。

1. プロセスではなくモデルの機能に重点を置きます。この原則は、AGI を実現するために必ずしも必要ではないいくつかの条件を排除するのに役立ちます。たとえば、AGI を実現するということは、システムが人間のように考えたり理解したりすることを意味するわけではありません。また、たとえば、AGI を実現するということは、システムが意識 (主観的な認識) や知覚 (感情を持つ能力) などの特性を持つことを意味するわけでもありません。

2. 汎用性とパフォーマンスに重点を置きます。すべての定義は、程度の差はあれ一般性を重視していますが、パフォーマンス基準を除外している定義もあります。 DeepMind は、一般性とパフォーマンスの両方が AGI の重要な要素であると考えています。

3. 認知タスクとメタ認知タスクに焦点を当てます。 AGI の基準として具現化された知能が必要かどうかは議論の余地のある問題です。ほとんどの定義は認知タスク、つまり非物理的なタスクに焦点を当てています。ロボット工学の最近の進歩にもかかわらず、AI システムの物理的機能は非物理的機能に比べて遅れているようです。 DeepMind は、物理的なタスクを実行する能力はシステムの汎用性を高めることができるが、AGI を実現するための必須の前提条件とは見なされないと考えています。一方、メタ認知能力（新しいタスクを学習する能力や、人間に説明や支援を求めるタイミングを知る能力など）は、システムが一般化を実現するための重要な前提条件です。

4. 展開ではなく、可能性に焦点を当てます。システムが特定のパフォーマンスレベルで一連の必要なタスクを実行できることを実証できれば、そのシステムを AGI であると宣言するのに十分ですが、そのようなシステムを導入することが AGI に固有のものであるとは考えられません。 AGI を測定するための必要条件として展開可能な機能を要求すると、法的および社会的責任を考慮する必要性や、潜在的な倫理的および安全上の問題など、非技術的な障壁が生じます。

5. 生態学的妥当性に注意を払う。 AGI に向けた進捗を測定するために使用されるベンチマークは重要であり、従来の AI メトリックは自動化や定量化が非常に簡単ですが、人々が AGI に求めるスキルを捉えられない可能性があります。

6. 目的地だけでなく、AGI までの道のりに焦点を当てます。この論文では、AGI のレベルを定義することは価値があると主張しています。 AGI の各レベルを明確な一連のメトリック/ベンチマークに関連付けることは理にかなっています。

原則 2 と 6 に基づいて、表 1 では、パフォーマンスと一般性を AGI の中核的な側面として考慮するマトリックスベースの評価システムを紹介します。

DeepMind は、現在の最先端の言語モデルはレベル 1 の汎用 AI (新興 AGI) と見なされるべきだと考えています。次のレベルであるレベル 2 汎用 AI、つまり有能な AGI では、より広範なタスクでパフォーマンスを向上させる必要があります。

レベル 3 の Narrow AI (Expert Narrow AI とも呼ばれる) では、よく知られている DALLE-2 がこのレベルに分類されます。このように分類した理由は、DeepMind が DALLE-2 によって生成された画像は、人間が描くことができるほとんどの画像よりも高品質であると述べているためです。

マトリックス評価システムでは、AGI の最高レベルは ASI (人工超知能) であり、これは「超人的な」パフォーマンスを人間の 100% を超えるものと定義しています。たとえば、AlphaFold は世界トップクラスの科学者よりも高いレベルで単一のタスクを実行するため、レベル 5 の Narrow AI (超人的な Narrow AI) であると仮定します。この定義は、ASI システムが人間が追いつけないレベルで幅広いタスクを実行できることを意味します。

さらに、このフレームワークは、超人的なシステムが低レベルの AGI よりも幅広いタスクを実行できる可能性があることも意味します。たとえば、ASI システムには、脳信号を分析して人間の思考を解読したり、脳信号を分析して思考メカニズムを解読したり、動物とコミュニケーションしたりするなど、人間にはないスキルがある可能性があります。

次に、この記事では AI のリスクについて説明します。表 2 は、AGI レベル、自律性レベル、およびリスク間の相互作用を示しています。表 2 には、6 つの自律性レベルの具体的な例も示されています。

詳細については、原文論文を参照してください。

<<: 言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

>>: 描いた場所に画像が動きます！ Gen-2の新機能「マジックブラシ馬良」が大ヒット、ネットユーザー：緊急、緊急、緊急