OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す!ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

OpenAIの「月面着陸プロジェクト」はスーパーAIを目指す!ルカンはAGIへの道の7つの段階を提案し、世界モデルの構築が最初の段階である。

汎用 AGI はもうすぐ実現するかもしれません。

OpenAIの次なる「月面着陸計画」は、待望のスーパー人工知能を実現することであり、この段階に到達するための前提条件は、スーパーAIの調整問題を解決することです。

ほんの数日前、主任科学者のイリヤが OpenAI スーパーアライメントチームを率いて大きな成果を達成しました。彼らの最新の論文では、初めてスーパー AI アライメントの研究の方向性を定義しています。

つまり、小さいモデルが大きなモデルを監視します。

経験的証拠によれば、GPT-2 は GPT-4 のほとんどの機能を刺激し、GPT-3.5 のパフォーマンスを達成できることがわかります。これは、小さなモデルの障害の問題にも一般化できます。

その中で、公式ブログの最初の文章は、「我々は、今後10年以内に超知能が出現する可能性があると信じています。」

噂されているGPT-4.5と来年リリースされるかもしれないGPT-5と合わせて、OpenAIはスーパー人工知能の到来に備えているようだ。

しかし、ルカン氏の見解では、「超人的なAI」の開発は一夜にして起こるものではなく、複数の段階を経て徐々に完成されるだろう。

ステージ1: 世界の仕組みを学ぶ

1 つ目は、小動物のように世界の仕組みを学習できるシステムを構築することです。小動物は環境を観察し、そこから学習することで、より高度な AI 機能の開発の基盤を築くことができます。これは AI の進化における重要なステップでもあります。

対照的に、GPT-4 や Gemini などの今日の言語モデルは主にテキスト データに焦点を当てていますが、これでは明らかに不十分です。

LeCun 氏は、「今日の大規模モデルは猫や犬ほど賢くない」と述べて、現在の AI を嘲笑することが多い。彼の意見によれば、大規模モデルは AGI への道で迷い始めている。

彼は常に世界には「世界モデル」が存在すると信じており、現実世界をよりリアルにシミュレートすることで、幻覚や論理的欠陥など、現在のシステムの限界に対処することを目標に、脳のような新しい AI アーキテクチャの開発に取り組んできました。

これは、AI を人間の知能レベルに近づけたい場合、AI が赤ちゃんのように世界の仕組みを学ぶ必要がある理由でもあります。

この世界モデルのアーキテクチャは、コンフィギュレータ モジュール、知覚モジュール、世界モデル モジュール、コスト モジュール、短期記憶モジュール、アクター モジュールの 6 つの独立したモジュールで構成されています。

中心となるのは、知覚モジュールからの情報に基づいて世界を予測することを目的とした世界モデル モジュールです。人がどこに動いているかを感知できますか?車は曲がりますか、それとも直進しますか?

さらに、世界モデルは、重要な詳細を保持し、重要でない詳細を無視する世界の抽象的な表現を学習する必要があります。次に、タスクのレベルに適した抽象化レベルで予測を提供する必要があります。

LeCun 氏は、「Joint Embedding Prediction Architecture (JEPA)」がこの問題を解決できると考えています。 JEPA は、抽象的な表現を生成しながら、大量の複雑なデータに対する教師なし学習を可能にします。

今年6月には「世界モデル」というビジョンに基づき、新たなアーキテクチャI-JEPAを提案した。

論文アドレス: https://ai.meta.com/blog/yann-lecun-ai-model-i-jepa/

しかし、LeCun 氏のより高レベルのビジョンには、世界モデルのアーキテクチャやトレーニング方法の詳細など、多くの未解決の疑問が残っています。

フェーズ2: 目的主導型で保護されたシステム

2 つ目は、目標指向型で、一定の安全対策の下で動作するマシンを構築することです。

これらの保護により、AI システムが目標を追求しながら安全かつ制御可能な状態を維持できるようになります。

ステージ3: 計画と推論

AI システムが成熟するにつれて、計画と推論の能力が発達し、安全規制に準拠しながら目標を達成できるようになります。

これにより、AI システムは世界に対する理解に基づいてよりインテリジェントな決定を下し、適切なアクションを実行できるようになります。

ステージ4: 階層的計画

さらに、AI システムは階層的な計画を実行できるようになり、意思決定能力が大幅に向上します。

これにより、AI システムは複雑なタスクや困難な問題をより効率的に処理できるようになります。

フェーズ5: 機械知能の強化

AI が進化するにつれて、これらのシステムの知能は、初期のネズミのレベルから犬やカラスと同等のレベルにまで向上します。

途中で、AI システムが制御可能かつ安全であることを保証するために、安全対策を継続的に調整する必要があります。

フェーズ6: 徹底的なトレーニングと微調整

AI システムが一定の知能レベルに達すると、より柔軟になり、さまざまな課題に対処できるようになるために、さまざまな環境やタスクでトレーニングする必要があります。

次に、AI システムを特定のタスクで優れたパフォーマンスを発揮できるように微調整する必要があります。

第7段階: 超人的なAIの時代

いつの日か、私たちが開発する AI システムは、ほぼすべての分野で人間の知能を超えるでしょう。

しかし、これはこれらのシステムが感情や意識を持っていることを意味するものではありません。彼らは人間よりも優れたタスクを実行できるというだけです。

同時に、これらの高度な AI システムが非常にインテリジェントであったとしても、常に人間の制御下に置かれる必要があります。

LeCun 氏が先に述べた点に基づくと、これは理論的には可能です。知能レベルと支配欲の間には直接的な相関関係がないため、AI には人間のように支配欲が生まれつき備わっているわけではありません。したがって、AI は自分たちよりも知能の低い人間に喜んで奉仕するかもしれません。

もちろん、今後 5 年間でこれが起こる可能性は低いです。

LLM 自己反復、AGI に向けて

スーパー AI システムが反復的に学習し、継続的にタスクを完了し、継続的に結果を改善できるようにするために、現在の多くのフレームワークでは識別可能なプロセスを採用しています。

下の図のような構造で、フィードバック制御や強化学習も組み込まれています。

さらに、手動入力を最小限に抑え、プロセスの自動化を強化するための追加機能を実装することもできます。

では、上記に示した反復学習システムはどのように機能するのでしょうか?

まず、人間はエージェントに広く定義されたタスクを割り当てます。

タスクは通常、「環境を探索し、できるだけ多くの異なるタスクを完了する」など、主な目標を概説するプロンプトの形式をとります。

プランナー モジュールは、この目標を条件として、一連の実行可能で理解可能なタスクに分解します。

LLM は大量のデータでトレーニングされており、エージェントが動作する環境を完全に理解しているため、目標分解を適切にサポートできます。さらに、コンテキストを補足して LLM のパフォーマンスを向上させることもできます。

プランナーが派生サブタスクのセットを提供する場合、セレクターは最も適切な次のサブタスク (前提条件を満たし、最良の結果を生成するサブタスク) を決定する責任を負います。

コントローラーの仕事は、現在のサブタスクに必要な操作を生成することです。結果として得られた操作は環境に導入されます。

このプロセスでは、メモリ ブロックを使用して最も類似した学習タスクが取得され、進行中のワークフローに統合されます。

最近のアクションの影響を評価するために、Critic は環境の状態を監視し、欠点や失敗の原因を特定するなどのフィードバックを提供します。

記述子ブロックは、環境とエージェントの状態をテキストとして記述し、Critic への入力として機能します。その後、Critic は Planner に包括的なフィードバックを提供し、次の試行を支援します。

システム内の各モジュールに関する具体的な詳細を見てみましょう。

プランナー

プランナーは、エージェントの現在の状態とレベルに基づいて、タスク全体を整理し、学習プロセスを調整する責任を負います。

LLM ベースのプランナーはトレーニング中に同様のタスク分解プロセスにさらされているとよく想定されますが、この想定はここでは当てはまりません。

そこで研究者らは、環境マニュアルのテキストからすべての関連情報を抽出し、小さなサイズのコンテキストに要約してプロンプトに結び付けるという方法を提案した。

実際のアプリケーションでは、エージェントはさまざまなレベルの複雑さを持つさまざまな環境に遭遇しますが、このシンプルでありながら効果的なアプローチにより、新しいタスクに対する頻繁な微調整を回避できます。

Planner モジュールは、いくつかの点で VOYAGER や DEPS に似ています。

VOYAGER は GPT-4 を自動カリキュラム モジュールとして使用し、探索の進行状況とエージェントの状態に基づいて、より困難なタスクを提案しようとします。そのヒントは次のとおりです。

制約を設定しながら探索を奨励します。

エージェントの現在の状態。

以前に完了したタスクと失敗したタスク、

別の GPT-3.5 自己質問応答モジュールからの追加コンテキスト。

次に、VOYAGER はエージェントが完了するタスクを出力します。

DEPS は、さまざまな環境で CODEX、GPT-4、ChatGPT、GPT-3 を LLM プランナーとして使用します。ヒントは次のとおりです。

強力な最終目標(例:Minecraft 環境でダイヤモンドを入手する)

最近生成されたプラン。

環境の説明と説明。

計画の効率を向上させるために、DEPS は、プランナーによって生成された候補目標のセットから現在の状態に応じて最も近い目標を選択する状態認識セレクターも提案します。

複雑な環境では、実行可能な計画が複数存在することが多く、より近い目標を優先することで計画の効率が向上します。

これを実現するために、研究者らはオフラインの軌跡を使用してニューラル ネットワークをトレーニングし、現在の状態で特定の目標を達成するために必要な時間ステップ数を予測してランク付けしました。次に、プランナーはセレクターと協力して、完了する一連のタスクを生成します。

コントローラ

コントローラーの責任は、特定のタスクを完了するための次のアクションを選択することです。

コントローラーは、状態と指定されたタスクに基づいてアクションを生成する LLM (VOYAGER など) または深層強化学習モデル (DEPS など) になります。

VOYAGER は GPT-4 を使用して、対話型プロンプトのコントローラーの役割を果たします。

VOYAGER、Progprompt、CaP は、コードが時間的拡張と組み合わせ操作を自然に表現できるため、アクション空間としてコードを使用することを選択します。 VOYAGER でコードを生成するためのヒントは次のとおりです。

コード生成の動機付けガイド;

利用可能な制御プリミティブ API とその説明のリスト。

記憶から取り出された関連するスキルまたはコード。

前回のラウンドで生成されたコード、環境フィードバック、実行エラー、批評家の出力。

現在のステータス;

思考の連鎖は、コード生成の前に推論を促します。

メモリ

人間の記憶は一般的に短期記憶と長期記憶に分けられます。

短期記憶は、学習や推論などのタスクに使用される情報を保存し、約 7 項目を保持でき、約 20 ~ 30 秒間持続します。

すべての LLM ベースの生涯学習法は、LLM コンテキストの長さによって制限されるコンテキスト学習を通じて短期記憶を使用します。

長期メモリは、長期間にわたって情報を保存および取得するために使用され、高速取得機能を備えた外部ベクトル ストレージとして実装できます。

VOYAGER は、学習したスキルを外部ベクトル ストレージに追加/取得することで、長期記憶の恩恵を受けます。

下の図に示すように、上部は VOYAGER が新しいスキルを追加するプロセスを示し、下部はスキルの取得を表しています。

Critic がコードがタスクを完了できることを確認すると、GPT-3.5 を使用してコードの説明が生成されます。

スキルは、キーと値のペア (スキルの説明とコード) の形式でスキル リポジトリに保存されます。

Planner が新しいタスクを生成すると、GPT-3.5 は新しい説明を生成し、スキル ライブラリから関連する上位 5 つのスキルを取得します。

長期メモリを追加すると、パフォーマンスが大幅に向上します。上の図は、VOYAGER にとってのスキル ライブラリの重要性を示しています。

コントローラーは短期メモリと長期メモリの両方を利用してポリシーを生成および改良します。

評論家

Critic は、以前に実行された計画をレビューし、フィードバックを提供する LLM ベースのモジュールでもあります。

Critic は GPT-4 を採用し、報酬信号、現在の軌跡、永続メモリを使用してフィードバックを生成します。フィードバックはスカラー報酬よりも多くの情報を提供し、Planner が計画を最適化するために使用できるようにメモリに保存されます。

ディスクリプタ

LLM ベースの生涯学習では、プランナーの入力と出力はテキストです。

多くの環境 (Crafter など) はテキストベースですが、2D または 3D イメージのレンダリングを返したり、何らかの状態変数を返したりする環境もあります。

このとき、記述子は中間のブリッジとして機能し、他のモダリティをテキストに変換して LLM プロンプトにマージします。

自律型AIエージェント

上記では、AGI 実現に向けた重要なステップである、基本モデルと継続学習を組み合わせる最新の研究について主に説明しました。

AutoGPT や BabyAGI などの最近の研究は人々に新たなインスピレーションをもたらしました。

これらのシステムは、タスクを取得し、それをサブタスクに分割し、プロンプトと応答を自動化し、指定された目標が達成されるまで繰り返します。

また、さまざまな API にアクセスしたり、インターネットにアクセスしたりすることもできるため、アプリケーションの範囲が大幅に拡大します。

AutoGPT はインターネットにアクセスし、オンラインおよびローカルのアプリケーション、ソフトウェア、サービスと対話できます。

人間が与えたより高いレベルの目標を達成するために、AutoGPT は Reason と ACT (ReACT) と呼ばれるプロンプト形式を使用します。

ReACT を使用すると、エージェントは入力を受け取り、理解してアクションを実行し、結果に基づいて推論し、必要に応じてサイクルを再実行できます。

AutoGPT は自らプロンプトを出すことができるため、タスクを完了しながら考え、推論し、解決策を探し、失敗した解決策を破棄し、さまざまなオプションを検討することができます。

BabyAGI は最近リリースされたもう 1 つの自律 AI エージェントであり、上記はそのフローチャートです。 LLM ベースのコンポーネントが 3 つあります。

タスク作成エージェント: タスクのリストを提案します (Planer と同様)。

Prioritizer: LLM プロンプトを通じてタスク リストの優先順位付けを試みます (Selector と同様)。

実行エージェント (コントローラーと同様): 最も優先度の高いタスクを実行します。

AutoGPT と BabyAGI はどちらもベクター データベースを使用して中間結果を保存し、経験から学習します。

制限と課題

しかし、生涯学習の過程における大規模言語モデル (LLM) には依然としていくつかの問題が残っています。

1 つ目は、モデルが幻覚を起こしたり、事実を捏造したり、存在しないタスクを配置したりすることがあり、いくつかの研究では、GPT-4 を GPT-3.5 に置き換えるとパフォーマンスに重大な影響が出るということです。

第二に、大規模な言語モデルがプランナーや批評家として機能する場合、そのパフォーマンスは十分に正確ではない可能性があります。 - たとえば、レビュー担当者が誤ったフィードバックを提供したり、プランナーが同じ計画を繰り返す可能性があります。

さらに、大規模言語モデルのコンテキストの長さによって短期記憶容量が制限され、詳細な過去の経験、特定の指示、および制御プリミティブ API を保存するモデルの能力に影響します。

最後に、ほとんどの研究では、大規模な言語モデルには生涯学習を実行するために必要なすべての情報がすでに備わっていると想定していますが、この想定は必ずしも当てはまりません。

そのため、研究者はエージェントにインターネット アクセス (AutoGPT など) を提供したり、入力コンテキストとしてテキスト マテリアルを提供したり (この論文で紹介されているように) して、その後の研究に役立てています。

<<:  GPT-4が化学者になる! USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

>>:  GPT-4.5 が密かにブロック解除?グレースケールテストはネットユーザーの間で熱く議論され、OpenAIの研究者はそれはすべて幻覚であると反論

ブログ    

推薦する

...

AIの新たな方向性:敵対的攻撃

[[249559]]近年のAI分野を調査していく中で、近年、世界中の研究者の視野の中に敵対的攻撃とい...

AIロボットの出現により、運転訓練業界における知能の新たな章が開かれた。

近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、道路上の車両数の継続...

...

...

人工知能が医薬品開発を加速させる

業界における人工知能(AI)の応用シナリオは増え続けており(日常的なスマート製品から大規模なイノベー...

旅の途中で「おもしろさ」が爆発!絵文字ジェネレーター、マスクがプリンセスに変身 | チュートリアル付き

Midjourney 5.2 はちょうど 1 週間前にリリースされ、さらに大きなアップデートが行われ...

ガートナー: 人工知能に関するよくある誤解5つ

[[259329]] 2018年上半期現在、中国には922社の人工知能企業があり、そのうち97%は今...

...

ヘルスケアにおける6つの新たなテクノロジートレンド

ヘルスケア業界におけるテクノロジーの浸透は、この分野の専門家のほぼすべての業務に影響を及ぼしています...

72歳の男性がコーラを飲みながら脳で麻雀をする:これはすべて脳コンピューターインターフェース技術のおかげです

浙江省メディアの報道によると、現在浙江大学医学部第二付属病院で治療を受けている72歳の張さんは、意識...

Facebook は顔認識を中止することで本当にリスクを回避しているのでしょうか?人種差別は致命的である

名前にちなんでFacebookとしても知られるMateは、顔認識システムを無効化し、10億人以上の個...

スポットロボット犬が古代ポンペイの警備員として活躍!墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

ボストン・ダイナミクスのロボット犬は、ダンスビデオを毎年リリースしているほか、さまざまな産業や警察署...

90年代以降は人工知能で年間数百万ドルを稼ぐ、Google、Microsoft、BATの給与リストが明らかに

年末には給与に関する議論が再び盛り上がる。昨日、馬化騰氏は抽選で従業員に30万元相当のテンセント株1...