その場所を爆破しろ!ディープマインドによる汎用人工知能の新たなブレークスルー:重みのセットが視覚テキストと意思決定をカバー

その場所を爆破しろ!ディープマインドによる汎用人工知能の新たなブレークスルー:重みのセットが視覚テキストと意思決定をカバー

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

汎用人工知能に関しては、やはり DeepMind に頼る必要があります。

今回は、1 つのモデルと同じ重量で、Atari ゲームを非常にうまくプレイできました。

人間とチャットしたり、絵に基づいて物語を書いたりすることも問題ありません。

実際の環境でロボットアームを制御し、指示に従ってタスクを完了させることもできます。

このモデルはスペイン語で「猫」を意味する「ガト」と名付けられています。

DeepMind によれば、猫は同じ重みを持つ同じニューラル ネットワークを使用して、さまざまな環境に適応できるそうです。

具体的には、DeepMind は 604 種類の異なるタスクで AI をトレーニングしましたが、そのすべてにはまったく異なるモード、観察する要素、行動ルールがありました。

Gato は 450 のタスクでエキスパート レベルの 50% を超えただけでなく、23 の Atari ゲームで人間の平均を上回るパフォーマンスを発揮しました。

DeepMindのCEOハサビス氏は次のように率直に語った。

これは現在最も一般的なエージェントです。

この最新の成果が発表されるやいなや、AI界では即座に白熱した議論が巻き起こりました。

あるAI研究者は次のように指摘した。

ガトーは印象的です。クラウド上でトレーニングするには 50,000 ドルしかかかりません。

この金額は、PaLM トレーニングにかかる​​ 1,100 万ドルの費用のほんの一部にすぎません。 PaLM の予算で Gato を 100 倍に拡大することは完全に可能であり、おそらくうまくいくでしょう。

PaLM は、Google がリリースした 5,400 億のパラメータを持つ言語モデルです。

ある人が、AlphaStar アーキテクチャと Gato アーキテクチャを直接比較しました。

Zoom AIの著名な科学者Awni Hannun氏は、過去5週間にわたるGoogle/DeepMindによる集中的な成果の公開を直接的に嘆いた。

では、DeepMind のこの「猫」の背景にある物語は何でしょうか?

1台のトランスフォーマーですべてを実現

DeepMind は、その研究方法をたった一文で説明しました。

大規模言語モデルにヒントを得て、同様のアプローチを使用して、モデル機能をテキスト以外の領域に拡張します。

そうです、今回は、大規模な言語モデルでよく使用される Transformer アーキテクチャが役立ちました。

Transformer の本質は、1 つのシーケンスを別のシーケンスに変換することです。

したがって、さまざまなタスクを習得させたい場合は、まずあらゆる種類のデータをシーケンスにエンコードする必要があります。

言うまでもなく、テキストは本来シーケンス情報であり、従来の SentencePiece エンコーディングを使用してエンコードできます。

画像については、ViT がすでに用意しています。まず、16 x 16 ピクセルに分割し、各ピクセルに番号を付けてシーケンスに処理します。

ゲームをプレイするときのキー入力もシーケンスであり、誰もが知っている「上、上、下、下、左、左、右、ババ」などの離散値に属します。

ロボットを操作する際のセンサー信号と関節トルクは連続値であり、一連のサンプリングとエンコードを通じて離散シーケンスにも処理されます。

最終的には、すべてのシーケンス データは同じ Transformer によって処理されます。

Gato モデル全体で使用されるトレーニング データは、一般的にゲームとロボット制御タスクに偏っており、596 のタスクが 85.3% を占めています。視覚と自然言語のタスクはわずか 14.7% を占めます。

モデル アーキテクチャに関しては、シンプルさとスケーラビリティのために、最も古典的なオリジナルの Transformer に基づいていくつかの小さな変更を加えました。具体的なパラメータは次のとおりです。

Gato の 24 層、11.8 億パラメータ バージョンを Google 16x16 Cloud TPUv3 スライスでトレーニングするのに約 4 日かかりました。

展開されると、Gato は視覚および言語タスクに関して従来の Transformer や ViT と同じように動作します。

ゲームやロボットの制御における行動パターンは、「一歩ずつ進んで何が起こるかを見る」と理解できます。

まず、出力シーケンスの先頭として、ゲーム操作やロボットの動作などのタスクプロンプトが与えられます。

次に、Gato は現在の環境を観察し、アクション ベクトルに対して自己回帰サンプリングを実行し、アクションが実行されて環境が変化した後にプロセスを繰り返します...

では、このように訓練されたガトーは、さまざまなタスクをどのように遂行するのでしょうか?

わずか12億のパラメータで万能選手になる

ゲームのプレイに関しては、ガトーのパフォーマンスは 1 枚の写真にまとめることができます。

x 軸はトレーニング セット内のエキスパート レベルのパーセンテージです。0 はランダム パラメーター モデルのレベルを表します。

Y 軸は、Gato が対応するエキスパート レベルを超えた、またはそれに到達したタスクの数です。

最終結果では、ガトーは604のタスクのうち450でエキスパートレベルの50%を超えました。

より詳細な結果は次のとおりです。

アタリのゲームテストでは、ガトーは23のゲームで人間の平均を上回る成績を収め、11のゲームでは人間の2倍の成績を収めた。

これらのゲームには、古典的な卓球やレースのほか、射撃、格闘などのタイプが含まれます。

ベンジオ氏のチームが実施したBabyAIテストでは、ガトー氏はほぼすべてのレベルでエキスパートレベルの80%に達し、最も難しいボスレベルでは75%に達した。これは、以前の BabyAI リストの 2 つのモデル (それぞれ 77% と 90%) に匹敵しますが、両方のモデルは数百万のデモンストレーションを使用して特別にトレーニングされました。

△BabyAIレベルの例

メタワールド(仮想環境でロボットアームを操作する)では、ガトーは45のタスクのうち44でエキスパートレベルの50%を超え、35で80%を超え、3で90%を超えました。

メタワールドミッションの例

実際のロボットを操作する点では、以前のモデルと同様に優れています。

視覚タスクとテキストタスクに関しては、DeepMind は今回、少なくとも一般的なモデルの実現可能性を検証するためにベンチマークを実行せず、代わりにいくつかの例を示しました。

画像を説明する

△チャットダイアログ

最後に、DeepMind は Gato モデルのスケーラビリティも評価しました。

Gato は現在、個々のタスクで SOTA の結果に匹敵することはできませんが、実験結果によると、パラメータ、データ、ハードウェアの増加に伴い、Gato モデルのパフォーマンスには比例して向上する余地がまだあることが示されています。

さらに、Gato は少数サンプル学習においても一定の可能性を示しています。

DeepMind は、このような汎用モデルは、将来的にプロンプ​​トや微調整を通じて新しいタスクを迅速に学習でき、タスクごとに大規模なモデルをゼロからトレーニングする必要はないと考えています。

汎用人工知能までどれくらい遠いのでしょうか?

ガトーのパフォーマンスを見て、ネットユーザーが「衝撃を受けた」のも不思議ではない。

AGI(汎用人工知能)がもうすぐ実現すると信じている人もいます。

もちろん、反対・疑問の声も多数あります。

例えば、人工知能に冷水を浴びせる先頭に立ってきたマーカス氏は、今回も最初の一撃を放った。

10ページをよく見てください。大規模言語モデルの特徴である信頼性の低さと誤情報は、モデルがどれだけ大きくなってもそのまま残ります。

しかし、いずれにせよ、DeepMind の汎用人工知能に向けた取り組みは、常に新たな成果を生み出しています。

実際、2013年にGoogleを驚かせたAtariのゲームAIであれ、世界的に有名なAlphaGoやAlphaStarであれ、DeepMindがこれらの中間結果を通じて達成したい究極の目標は、常に汎用人工知能というキーワードにたどり着いています。

昨年、ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジの教授でもあるデビッド・シルバー氏は、やはり大きな議論を呼んだ論文「報酬だけで十分」の出版を主導した。

この論文では、報酬最大化に基づく人工知能の一分野としての強化学習が、汎用人工知能の開発を促進するのに十分であると考えています。

ガトー氏のチームのメンバーによると、この「猫」はディープマインド内で2年間にわたって育まれてきたという。

今回、Gatoはオフラインで教師あり学習されましたが、論文では原理的にはオフラインまたはオンラインの強化学習を使用して学習させることもできると強調しています。

ちょうど1週間前、DeepMind は次のような新しいビデオを公開しました。

私たちは次の大きなことをやろうとしています。それは、人々が難しすぎると考える多くのことに挑戦することを意味します。しかし、試してみる必要があります。

今のところ、次の大きなものは AGI のようです。

論文アドレス: https://www.deepmind.com/publications/a-generalist-agent

<<:  ロボットが高齢者介護のあらゆる問題を解決する

>>:  間隔適応型ルックアップテーブルに基づくリアルタイム画像強調法

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

カメラのようにズームして、写真の細部を塗りつぶし、スタイルをカスタマイズ。AIペイントツールMidjourneyが再びアップデート

有名な AI ペイントツール Midjourney が再びユーザーに衝撃を与えました。先月バージョン...

配達員に代わるドローン配達は、人々に「嫌われるのではなく愛される」ようになる

現在、人々の生活や仕事のペースはますます加速し、インターネット電子商取引プラットフォームは急速に発展...

...

GPT-4 の補完精度はわずか 6% です。北京大学などが、初の「マルチラウンド、マルチモーダル」PPTタスク完了ベンチマークPPTCを提案

大規模言語モデル(ChatGPT や GPT-4 など)に関する最近の評価作業は、主に基本的な自然言...

アリババのナレッジグラフが初めて公開: 1日あたり数千万のブロックデータ、数十億の完全インテリジェント監査

アリババのナレッジグラフの助けにより、アリババの電子商取引プラットフォームの管理と制御は、以前の「巡...

...

...

月間 30 万個の H100 チップ、Nvidia は Intel にチップの製造を依頼しているのでしょうか? CoWosの生産能力が低すぎるからといって

TSMCの生産能力不足により、Nvidiaはチップ製造をIntelに頼らざるを得なくなったのか? T...

...

...

...

未来のあなたは「透明」です!コンピューターは人間の脳信号から思考を予測し、最大83%の精度で人間の脳画像を復元します。

最近、ヘルシンキ大学の研究者らは、脳信号を監視することでコンピューターが視覚知覚をシミュレートできる...

NTRU 1.2 リリース Java 用 NTRU 暗号化アルゴリズム ライブラリ

NTRU 1.2 バージョンには多くの機能強化とバグ修正が含まれていますが、このバージョンは以前のバ...

レストランロボットの準備はできていますか?それが答えかもしれない

パンデミック中に本当に苦戦した業界の一つはレストランです。多くのレストランは社会的距離を保つ必要性か...