Google AGI ロボットの大躍進! 54人のチームが7か月間かけて強力な一般化と推論を実現した。これはDeepMindとGoogle Brainの合併後の新たな成果である。

Google AGI ロボットの大躍進! 54人のチームが7か月間かけて強力な一般化と推論を実現した。これはDeepMindとGoogle Brainの合併後の新たな成果である。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

爆発的な人気を博しているビッグモデルは、Google DeepMind のロボット工学研究を一変させています。

彼らの最新の成果の 1 つは、構築に 7 か月かかり、オンラインで大ヒットとなったロボット プロジェクトRT-2です。

効果はどのくらいですか?

人間の言葉で命令するだけで、目の前の小さな男はロボットアームを振って考え、「主人の仕事」を完了することができます。

ポップシンガーのテイラー・スウィフトに水を渡したり、スターのチームロゴを特定したりするなど:

ロボットは能動的に考えることもできるので、「絶滅した動物を選んで」と頼めば、ライオン、クジラ、恐竜の3つのプラスチックのおもちゃの中から恐竜を正確に選ぶことができます。

ネットユーザーによれば、この能力を過小評価してはいけない、これは「絶滅した動物」から「プラスチックの恐竜」への論理的飛躍である

さらに驚くべきは、「疲れている人のために飲み物を選ぶ」といった一連の思考を必要とする多段階の推論問題を簡単に解くことができることです。コマンドを聞くとすぐに、小さな手がレッドブルにまっすぐ向かいます。とても賢いです。

それを見たネットユーザーの中にはため息をついた人もいた。

もう待てない、早く人間の皿洗いを始めろ(犬の頭)

Google DeepMind のこの成果は54 人の研究者の協力の結果であり、最終的に今日私たちが「とても簡単」だと感じる状態になるまでに 7 か月かかったことがわかっています。

ニューヨークタイムズによると、Google DeepMindのロボット工学技術ディレクターであるヴィンセント・ヴァンホーケ氏は、このビッグモデルが同部門の研究の方向性を完全に変えたと考えている。

この(大きなモデルの)変更により、研究プロジェクト全体を再考する必要がありました。

以前勉強したことの多くは完全に効果がなくなってしまいました。

では、RT-2 はどのような効果を達成できるのでしょうか。また、この研究は具体的に何についてなのでしょうか。

マルチモーダルな大型モデルをロボットアームに組み込む

RT-2 (ロボティック・トランスフォーマー2)と呼ばれるこのロボットプロジェクトは、昨年末にリリースされたRT-1の「進化版」です。

他のロボット研究と比較した場合、RT-2 の核心的な利点は、「人間の言語」を理解できるだけでなく、「人間の言語」について推論し、それをロボットが理解できる指示に変換することで、段階的にタスクを完了できることです。

具体的には、記号理解推論人間認識という 3 つの主要な機能があります

最初の機能は「シンボル理解」であり、大規模なモデルで事前トレーニングされた知識を、ロボットがこれまで見たことのないデータに直接拡張することができます。例えば、ロボットのデータベースには「レッドブル」は存在しませんが、大きな模型の知識から「レッドブル」の外観を理解して把握し、物体を保持することができます。

2 つ目の能力は「推論」であり、これも RT-2 の核となる利点です。ロボットは、数学、視覚的推論、多言語理解という 3 つの主要なスキルを習得する必要があります。

スキル 1 には、数学的論理推論コマンド「バナナを 2 + 1 の合計が配置される位置に置きます」が含まれます。

スキル 2、視覚的推論(「イチゴを正しいボウルに入れる」など)

3 番目のスキルである多言語理解は、スペイン語で「アイテムの山から最もユニークなものを選びなさい」と命令するなど、英語がなくても指示を完了できます。

3つ目の能力は人間認識で、人間の行動を正確に識別し理解する能力です。冒頭で紹介した「テイラー・スウィフトに水をあげる」という例は、この能力の実証例の1つです。

では、これら 3 つの機能はどのように実現されるのでしょうか?

簡単に言えば、ビジュアル・テキスト・マルチモーダル・モデル(VLM)の「推論」「認識」「数学」などの機能をロボットの操作機能と組み合わせることです。

これを実現するために、研究者らは、ビジョン・テキスト・アクション大規模モデル(VLM)に「ロボットアクションモダリティ」と呼ばれるモダリティを追加し、ビジョン・テキスト・アクション大規模モデル(VLA)に変えました。

その後、元々非常に特殊なロボットの動作データがテキスト トークンに変換されます。

例えば、回転の度合いや配置する座標点などのデータを、「特定の場所に配置してください」というテキストに変換できます。

このように、ロボットデータは視覚言語データセットでもトレーニングに使用できます。同時に、推論プロセス中に、元のテキスト指示がロボットデータに変換され、ロボットの制御などの一連の操作が実現されます。

はい、それはとても単純で粗雑です(手動の犬の頭)

この研究では、研究チームは主に、50億と550億のPaLI-X 、30億のPaLI 、120億のPaLM-Eなど、 Googleの一連の基本的な大型モデルに基づいて「アップグレード」しました。

大規模モデル自体の機能を向上させるために、研究者らは多大な努力を注ぎ、最近人気の思考チェーン、ベクトルデータベース、無勾配アーキテクチャを活用しました。

この一連の操作により、RT-2 には昨年リリースされた RT-1 と比較して多くの新しい利点がもたらされます。

具体的な実験結果を見てみましょう。

RT-1の最大3倍の性能

RT-2 は、前世代のロボットモデル RT-1 のデータを使用してトレーニングされます(つまり、データは変更されておらず、方法のみが変更されています)

データは、オフィスに設置されたキッチン環境で 13 台のロボットを使用して17 か月間にわたって収集されました。

実際のテスト(合計6,000回)では、著者らはRT-2にこれまで見たことのない多くのオブジェクトを与え、タスクを完了するためにRT-2が微調整データを超えた意味理解を実行することを要求しました。

結果はかなり良好でした:

これらには、文字、国旗、キャラクターを認識するなどの簡単なコマンドから、人形から陸生動物を識別する、色の違う動物を選択する、さらにはテーブルから落ちそうなおやつを拾うなどのコマンドが含まれます。

シンボル理解、推論、人間認識という 3 つのサブ機能の点では、RT-2 の両方のバリアントは RT-1 や別の視覚事前トレーニング方法である VC-1 よりもはるかに優れており、パフォーマンスは最大 3 倍優れています。

前述のように、2 つのバリアントはそれぞれ 120 億のパラメータを持つ PaLM-E と 550 億のパラメータを持つ PaLI-X でトレーニングされています。

具体的な一般化能力評価では、複数のベースラインモデルによるマルチカテゴリセグメンテーションテストを通じて、最終的にRT-2のパフォーマンスが約2倍向上したことがわかりました。

(残念ながら、他のチームの最新の LLM ベースのロボット工学アプローチと比較したことはありません。)

RT-2 のさまざまな設定が一般化結果にどのように影響するかをよりよく理解するために、著者らは 2 つの主要な評価タイプを設計しました。

まず、モデルのサイズに関して言えば、RT-2 PaLI-X バリアントのみがそれぞれ 50 億のパラメータと 550 億のパラメータでトレーニングされています。

次に、トレーニング方法に関しては、モデルを最初からトレーニングする方法、微調整する方法、共同微調整の方法を使用します。

最終結果は、視覚言語モデルの事前トレーニングされた重みの重要性とモデルの一般化能力は、モデルのサイズとともに増加する傾向があることを示しています。

さらに、著者らはオープンソース言語テーブルベンチマークでも RT-2 を評価し、その結果、シミュレーションベンチマークで SOTA 結果(以前の 77% に対して 90%)を達成したことが示されました。

最後に、RT-2 PaLM-E バリアントは、単一のニューラル ネットワーク内で LLM、VLM、およびロボット コントローラーとして機能できる視覚言語アクション モデルであるため、RT-2 は制御可能な思考連鎖推論も実行できます。

下の図に示すように、推論を必要とする 5 つのタスク(特に興味深いのは、ハンマーの代わりになるアイテムを選択するという最後のタスク) のうち、コマンドを受け取った後、最初に自然言語の手順を出力し、次に特定のアクション トークンを与えます。

最後にまとめると、この最新の RT-2 モデルは、マシンがこれまで見たことのないさまざまなシナリオに適しているだけでなく、より優れた一般化機能も備えています。同時に、より優れた大規模モデルのサポートにより、推論などのいくつかの難しい新機能も習得しています。

もう一つ

Google がロボット工学の研究を大型モデルに集中させているのは根拠のない話ではないようだ。

この2日間だけでも、コロンビア大学と共同で発表した「大型モデルを活用してロボット操作スキルの習得を支援する」という論文も非常に好評でした。

この論文では、ロボットが大規模なモデルにうまく適応できるだけでなく、元のロボットの基本的な操作と制御機能も保持できる新しいフレームワークを提案します。

RT-2 とは異なり、このプロジェクトはオープンソースです。

大型モデルがロボット部門全体のアップグレードを牽引したのは事実だ。

フェイフェイ・リー氏のチームによる具現化された知能の分野での最近の成果を考慮すると、大型モデルを使用してロボットを駆動することは確かに研究のトレンドになっており、すでに非常に有望な進歩の波が見られるようになったと言えます。

この研究の方向性に対してどのような期待を抱いていますか?

プロジェクトアドレス: https://robotics-transformer2.github.io/

<<:  GPT-4 は上司とプログラマーに取って代わります。この GitHub プロジェクトは最も検索されています。著者: AI に反復処理を学習させる

>>:  ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

ブログ    

推薦する

...

ディープラーニングにおける多体問題の解決方法

「多体問題」(N 体問題とも呼ばれる)は単純に見えますが、実際には今日の数学で解決するのが非常に難し...

セキュリティ分野におけるドローン技術応用の現状

[[422011]] 2013年、バハマで仕事をしていたとき、私は現在ドローンとして知られているもの...

初級データベースアルゴリズム [I]

作者は長い間ブログを更新していませんでした。その理由の一つは、開発したプロジェクトで使用されている技...

OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

OpenAI の CLIP モデルは、画像とテキスト カテゴリのマッチングに非常に優れていますが、元...

...

...

信頼性の高い人工知能システムのルールをどのように定義し構築するのでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

「手抜きアルゴリズム」は大企業をターゲットにしており、これがそれだ

[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...

機械学習を使うのに開発者である必要はありません

デジタル化と AI の導入が加速する中、企業では人工知能 (AI) と機械学習 (ML) の開発者が...

世界では毎年24の言語が消滅している。AIは絶滅危惧言語の新たな救世主となった

昨年、国連は2019年を「国際先住民族言語年」と宣言し、今、このお祭りがますます近づいてきています。...

...

2021年は新たなAIを形作る

人工知能が世界を形作っています。コロナウイルスを克服する方法、自動車の自動化、ロボット工学など、世界...