その場所を爆破しろ！ディープマインドによる汎用人工知能の新たなブレークスルー：重みのセットが視覚テキストと意思決定をカバー

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

汎用人工知能に関しては、やはり DeepMind に頼る必要があります。

今回は、1 つのモデルと同じ重量で、Atari ゲームを非常にうまくプレイできました。

人間とチャットしたり、絵に基づいて物語を書いたりすることも問題ありません。

実際の環境でロボットアームを制御し、指示に従ってタスクを完了させることもできます。

このモデルはスペイン語で「猫」を意味する「ガト」と名付けられています。

DeepMind によれば、猫は同じ重みを持つ同じニューラルネットワークを使用して、さまざまな環境に適応できるそうです。

具体的には、DeepMind は 604 種類の異なるタスクで AI をトレーニングしましたが、そのすべてにはまったく異なるモード、観察する要素、行動ルールがありました。

Gato は 450 のタスクでエキスパートレベルの 50% を超えただけでなく、23 の Atari ゲームで人間の平均を上回るパフォーマンスを発揮しました。

DeepMindのCEOハサビス氏は次のように率直に語った。

これは現在最も一般的なエージェントです。

この最新の成果が発表されるやいなや、AI界では即座に白熱した議論が巻き起こりました。

あるAI研究者は次のように指摘した。

ガトーは印象的です。クラウド上でトレーニングするには 50,000 ドルしかかかりません。
この金額は、PaLM トレーニングにかかる 1,100 万ドルの費用のほんの一部にすぎません。 PaLM の予算で Gato を 100 倍に拡大することは完全に可能であり、おそらくうまくいくでしょう。

PaLM は、Google がリリースした 5,400 億のパラメータを持つ言語モデルです。

ある人が、AlphaStar アーキテクチャと Gato アーキテクチャを直接比較しました。

Zoom AIの著名な科学者Awni Hannun氏は、過去5週間にわたるGoogle/DeepMindによる集中的な成果の公開を直接的に嘆いた。

では、DeepMind のこの「猫」の背景にある物語は何でしょうか?

1台のトランスフォーマーですべてを実現

DeepMind は、その研究方法をたった一文で説明しました。

大規模言語モデルにヒントを得て、同様のアプローチを使用して、モデル機能をテキスト以外の領域に拡張します。

そうです、今回は、大規模な言語モデルでよく使用される Transformer アーキテクチャが役立ちました。

Transformer の本質は、1 つのシーケンスを別のシーケンスに変換することです。

したがって、さまざまなタスクを習得させたい場合は、まずあらゆる種類のデータをシーケンスにエンコードする必要があります。

言うまでもなく、テキストは本来シーケンス情報であり、従来の SentencePiece エンコーディングを使用してエンコードできます。

画像については、ViT がすでに用意しています。まず、16 x 16 ピクセルに分割し、各ピクセルに番号を付けてシーケンスに処理します。

ゲームをプレイするときのキー入力もシーケンスであり、誰もが知っている「上、上、下、下、左、左、右、ババ」などの離散値に属します。

ロボットを操作する際のセンサー信号と関節トルクは連続値であり、一連のサンプリングとエンコードを通じて離散シーケンスにも処理されます。

最終的には、すべてのシーケンスデータは同じ Transformer によって処理されます。

Gato モデル全体で使用されるトレーニングデータは、一般的にゲームとロボット制御タスクに偏っており、596 のタスクが 85.3% を占めています。視覚と自然言語のタスクはわずか 14.7% を占めます。

モデルアーキテクチャに関しては、シンプルさとスケーラビリティのために、最も古典的なオリジナルの Transformer に基づいていくつかの小さな変更を加えました。具体的なパラメータは次のとおりです。

Gato の 24 層、11.8 億パラメータバージョンを Google 16x16 Cloud TPUv3 スライスでトレーニングするのに約 4 日かかりました。

展開されると、Gato は視覚および言語タスクに関して従来の Transformer や ViT と同じように動作します。

ゲームやロボットの制御における行動パターンは、「一歩ずつ進んで何が起こるかを見る」と理解できます。

まず、出力シーケンスの先頭として、ゲーム操作やロボットの動作などのタスクプロンプトが与えられます。

次に、Gato は現在の環境を観察し、アクションベクトルに対して自己回帰サンプリングを実行し、アクションが実行されて環境が変化した後にプロセスを繰り返します...

では、このように訓練されたガトーは、さまざまなタスクをどのように遂行するのでしょうか?

わずか12億のパラメータで万能選手になる

ゲームのプレイに関しては、ガトーのパフォーマンスは 1 枚の写真にまとめることができます。

x 軸はトレーニングセット内のエキスパートレベルのパーセンテージです。0 はランダムパラメーターモデルのレベルを表します。

Y 軸は、Gato が対応するエキスパートレベルを超えた、またはそれに到達したタスクの数です。

最終結果では、ガトーは604のタスクのうち450でエキスパートレベルの50％を超えました。

より詳細な結果は次のとおりです。

アタリのゲームテストでは、ガトーは23のゲームで人間の平均を上回る成績を収め、11のゲームでは人間の2倍の成績を収めた。

これらのゲームには、古典的な卓球やレースのほか、射撃、格闘などのタイプが含まれます。

ベンジオ氏のチームが実施したBabyAIテストでは、ガトー氏はほぼすべてのレベルでエキスパートレベルの80％に達し、最も難しいボスレベルでは75％に達した。これは、以前の BabyAI リストの 2 つのモデル (それぞれ 77% と 90%) に匹敵しますが、両方のモデルは数百万のデモンストレーションを使用して特別にトレーニングされました。

△BabyAIレベルの例

メタワールド（仮想環境でロボットアームを操作する）では、ガトーは45のタスクのうち44でエキスパートレベルの50％を超え、35で80％を超え、3で90％を超えました。

メタワールドミッションの例

実際のロボットを操作する点では、以前のモデルと同様に優れています。

視覚タスクとテキストタスクに関しては、DeepMind は今回、少なくとも一般的なモデルの実現可能性を検証するためにベンチマークを実行せず、代わりにいくつかの例を示しました。

画像を説明する

△チャットダイアログ

最後に、DeepMind は Gato モデルのスケーラビリティも評価しました。

Gato は現在、個々のタスクで SOTA の結果に匹敵することはできませんが、実験結果によると、パラメータ、データ、ハードウェアの増加に伴い、Gato モデルのパフォーマンスには比例して向上する余地がまだあることが示されています。

さらに、Gato は少数サンプル学習においても一定の可能性を示しています。

DeepMind は、このような汎用モデルは、将来的にプロンプトや微調整を通じて新しいタスクを迅速に学習でき、タスクごとに大規模なモデルをゼロからトレーニングする必要はないと考えています。

汎用人工知能までどれくらい遠いのでしょうか?

ガトーのパフォーマンスを見て、ネットユーザーが「衝撃を受けた」のも不思議ではない。

AGI（汎用人工知能）がもうすぐ実現すると信じている人もいます。

もちろん、反対・疑問の声も多数あります。

例えば、人工知能に冷水を浴びせる先頭に立ってきたマーカス氏は、今回も最初の一撃を放った。

10ページをよく見てください。大規模言語モデルの特徴である信頼性の低さと誤情報は、モデルがどれだけ大きくなってもそのまま残ります。

しかし、いずれにせよ、DeepMind の汎用人工知能に向けた取り組みは、常に新たな成果を生み出しています。

実際、2013年にGoogleを驚かせたAtariのゲームAIであれ、世界的に有名なAlphaGoやAlphaStarであれ、DeepMindがこれらの中間結果を通じて達成したい究極の目標は、常に汎用人工知能というキーワードにたどり着いています。

昨年、ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジの教授でもあるデビッド・シルバー氏は、やはり大きな議論を呼んだ論文「報酬だけで十分」の出版を主導した。

この論文では、報酬最大化に基づく人工知能の一分野としての強化学習が、汎用人工知能の開発を促進するのに十分であると考えています。

ガトー氏のチームのメンバーによると、この「猫」はディープマインド内で2年間にわたって育まれてきたという。

今回、Gatoはオフラインで教師あり学習されましたが、論文では原理的にはオフラインまたはオンラインの強化学習を使用して学習させることもできると強調しています。

ちょうど1週間前、DeepMind は次のような新しいビデオを公開しました。

私たちは次の大きなことをやろうとしています。それは、人々が難しすぎると考える多くのことに挑戦することを意味します。しかし、試してみる必要があります。

今のところ、次の大きなものは AGI のようです。

論文アドレス: https://www.deepmind.com/publications/a-generalist-agent

<<: ロボットが高齢者介護のあらゆる問題を解決する

>>: 間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

ブログ

パンデミック後、アメリカ人の半数がスマートデバイスの音声制御が不可欠だと考えている

その場所を爆破しろ！ディープマインドによる汎用人工知能の新たなブレークスルー：重みのセットが視覚テキストと意思決定をカバー

1台のトランスフォーマーですべてを実現

わずか12億のパラメータで万能選手になる

汎用人工知能までどれくらい遠いのでしょうか?

パンデミック後、アメリカ人の半数がスマートデバイスの音声制御が不可欠だと考えている

ルールベースのAIと機械学習の主な違いは、さまざまな業界の企業が検討し、実装している点です。

企業向け人工知能アプリケーション開発ガイド

深層畳み込みネットワークに基づく自動運転のためのマルチモーダル軌道予測の簡単な分析

2019年の技術予測: クラウド、ビッグデータ、AI、IoT、ブロックチェーン

中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

2021年にAI開発に使える言語は何ですか？

AI 開発の加速: 企業はどのように MLOps を使用して生産効率を向上できるでしょうか?

貪欲アルゴリズム: バイナリツリーを監視したい!

推薦する

TSMCは降伏を余儀なくされた！すべての機密データは11月8日までに提出されます

自動運転車はすでに登場していますが、船舶が AI に取って代わられるまでには長い時間がかかるのでしょうか?

人気の機械学習プログラミング言語、フレームワーク、ツール14選

教育ロボットとベテラン教師の戦い：学習の効率を高めるのはどちらでしょうか?

ChatGPT Enterprise Edition は基本的に廃止されました。

無料の Python 機械学習コース 1: 線形回帰アルゴリズム

Scikit-learn を使用して機械学習用のテキストデータを準備する方法

人工知能によりスマートロックが「考える」ことが可能になり、ユーザーの悩みを解決

あなたの AI モデルにはどのようなセキュリティ上の問題がありますか? AI 攻撃と防御の「辞書」ですべて見つけることができます