ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」が次の発展の方向になるはずだと私たちは知っています。

大規模なモデルをロボットに接続し、単純な自然言語を使用して複雑な指示を置き換え、追加のデータやトレーニングを必要とせずに具体的な行動計画を作成するというのは、美しいビジョンのように思えますが、少し遠いようにも思えます。結局のところ、ロボット工学の分野は非常に難しいことで有名です。

しかし、AIは私たちが想像するよりも速く進化しています。

今週の金曜日、 Google DeepMind は、ロボットを制御するための世界初の視覚・言語・行動 (VLA) モデルである RT-2 のリリースを発表しました。

今では、複雑なコマンドを使用する代わりに、ChatGPT のようにロボットを直接制御できます。

写真

RT-2 はどれくらいインテリジェントですか? DeepMindの研究者はロボットアームを使ってこれを実演した。彼らはAIに「絶滅した動物」を選ぶように指示した。アームが伸び、爪が開いて落ち、恐竜の人形をつかんだ。

写真

これまで、ロボットは見たことのない物体を確実に理解することができず、「絶滅した動物」と「プラスチックの恐竜人形」を結びつけるような推論を行うことはできなかった。

ロボットにテイラー・スウィフトにコーラの缶を渡すように指示します。

このロボットは本物のファンであることがわかり、それは人間にとって朗報です。

ChatGPT のような大規模な言語モデルの開発は、ロボット工学の分野に革命をもたらしています。Google は最先端の言語モデルをロボットに搭載し、ついにロボットに人工脳を搭載できるようにしました。

DeepMindが最近提出した論文の中で、研究者らは、RT-2モデルはネットワークとロボットのデータに基づいてトレーニングされ、Bardなどの大規模言語モデルの研究の進歩を活用し、それをロボットのデータと組み合わせたと述べています。新しいモデルは英語以外の指示も理解できます。

グーグルの幹部は、RT-2はロボットの製造とプログラミングの方法における大きな進歩だと述べた。「この変化により、私たちは研究アプローチ全体を再考する必要がある」と、グーグル・ディープマインドのロボット工学責任者、ヴィンセント・ヴァンホーケ氏は語った。「私たちが以前やっていたことの多くは、完全に役に立たなくなってしまいました。」

RT-2はどのように機能しますか?

DeepMind の RT-2 は Robotic Transformer、つまりロボットのトランスフォーマーモデルです。

ロボットに人間の言語を理解させ、SF映画のように生存能力を発揮させることは簡単なことではありません。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、ロボットは通常、人間に代わって単純なことを行うために複雑な指示を必要とします。対照的に、人間は本能的に何をすべきかを知っています。

これまで、ロボットのトレーニングには長い時間がかかり、研究者はさまざまなタスクごとに個別のソリューションを構築する必要がありました。RT-2 の強力な機能により、ロボットはより多くの情報を独自に分析し、次に何をすべきかを推測できるようになります。

RT-2 は、ビジョン言語モデル (VLM) を基盤として、ネットワークとロボットのデータから学習し、その知識をロボットが制御できる一般的な指示に変換できるビジョン言語アクション (VLA) モデルという新しい概念を生み出しました。このモデルは、疲れた人にはどの飲み物が最適か（エナジードリンク）などの思考連鎖の手がかりを使用することさえできました。

RT-2 アーキテクチャとトレーニングプロセス

実際、Google は昨年早くも RT-1 バージョンのロボットをリリースしました。RT-1 は、事前トレーニング済みのモデルを 1 つだけ使用して、さまざまな感覚入力 (視覚、テキストなど) から指示を生成し、複数のタスクを実行できます。

事前トレーニングモデルとして、それを適切に構築するには、当然ながら自己教師学習のための大量のデータが必要です。 RT-2 は RT-1 をベースにしており、17 か月間にわたりオフィスやキッチン環境で 13 台のロボットによって収集された RT-1 のデモンストレーションデータを使用します。

DeepMindはVLAモデルを作成した

前述のように、RT-2 は VLM 上に構築されており、VLM モデルは Web 規模のデータでトレーニングされており、視覚的な質問への回答、画像のキャプション作成、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、以前に提案された2つのVLMモデル、PaLI-X（Pathways Language and Image model）とPaLM-E（Pathways Language model Embodied）をRT-2のバックボーンとして採用し、これらのモデルの視覚・言語・行動バージョンをRT-2-PaLI-XとRT-2-PaLM-Eと名付けました。

視覚言語モデルがロボットを制御するには、まだアクション制御というステップが残っています。この研究では非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語、つまりテキストトークンとして表現し、Web 規模の視覚言語データセットとともにトレーニングしました。

ロボットの動作のエンコードは、Brohan らが RT-1 モデル用に提案した離散化手法に基づいています。

下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。これは、「1 128 91 241 5 101 127 217」などのロボットの動作トークン番号のシーケンスである場合があります。

文字列は、ロボットに現在のエピソードを続行するか終了するかを指示するフラグで始まり、ロボットはその指示に従ってエンドエフェクタとロボットグリッパーの位置と回転を変更します。

アクションはテキスト文字列として表されるため、ロボットがアクションコマンドを実行するのは、文字列コマンドを実行するのと同じくらい簡単です。この表現により、既存の視覚言語モデルを直接微調整し、視覚言語アクションモデルに変換できます。

推論中、テキストトークンはロボットのアクションに分解され、閉ループ制御が実現されます。

実験

研究者らは、RT-2 モデルに関して一連の定性的および定量的実験を実施しました。

下の図は、RT-2 の意味理解と基本推論のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクでは、RT-2 はイチゴとボウルの表現を理解するだけでなく、シーンのコンテキストで推論して、イチゴを同様の果物と一緒に配置する必要があることを認識する必要があります。「テーブルから落ちそうなバッグを拾う」というタスクでは、RT-2 は 2 つのバッグを区別し、不安定な位置にある物体を識別するために、バッグの物理的特性を理解する必要があります。

これらすべてのシナリオでテストされたインタラクションは、ロボットデータではこれまで見られなかったことに注意する必要があります。

下の図は、4 つのベンチマークにおいて、RT-2 モデルが以前の RT-1 およびビジョン事前トレーニング済み (VC-1) ベースラインよりも優れていることを示しています。

RT-2 は、元のタスクでのロボットのパフォーマンスを維持し、これまでに見たことのないシーンでのロボットのパフォーマンスを RT-1 の 32% から 62% に向上させます。

一連の結果は、視覚言語モデル (VLM) を強力な視覚言語アクション (VLA) モデルに変換でき、VLM 事前トレーニングとロボットデータを組み合わせることでロボットを直接制御できることを示しています。

ChatGPTと同様に、この機能が大規模に適用されれば、世界はおそらく大きな変化を遂げるでしょう。しかし、グーグルはRT-2ロボットをすぐに使用する予定はなく、人間の言語を理解できるこれらのロボットは能力を実証するレベルにとどまらないだろうと研究者は考えているとだけ述べている。

言語モデルを内蔵したロボットを想像してみてください。このロボットは倉庫に入れられ、薬を受け取ったり、洗濯物を畳んだり、食器洗い機から食器を取り出したり、家の中のものを片付けたりするホームアシスタントとしても使えます。

これにより、本当に有人環境でのロボットの使用への扉が開かれ、肉体労働を必要とするあらゆる方向を担うことができるようになるかもしれません。つまり、ChatGPTが仕事に与える影響を予測する以前のOpenAIレポートでは、大規模なモデルでは影響できなかった部分をカバーできるようになります。

具現化された知性、それは遠い未来ではないでしょうか?

最近では、具現化された知能は多くの研究者が研究している方向性です。今月、スタンフォード大学のフェイフェイ・リー氏のチームが新たな成果を披露した。視覚言語モデルに大規模言語モデルを追加することで、AIは3D空間で分析と計画を行い、ロボットの動作を誘導できる。

写真

知慧君氏の汎用ヒューマノイドロボットスタートアップ「Agibot」が昨夜公開したビデオでは、ロボットが大規模な言語モデルに基づいて自動的に行動を調整し、タスクを実行する能力も披露された。

写真

8月には、志慧軍氏の会社が最近の成果のいくつかを披露する予定だ。

大型モデルの分野では大きな出来事が起ころうとしていることがわかります。

<<: VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

>>: GPT-X に基づく製品コピーライティングと画像生成の実践

ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

RT-2はどのように機能しますか?

実験

具現化された知性、それは遠い未来ではないでしょうか?

AIが悪事を働いている？人工知能における倫理について考えなければなりません！

YouTubeの有名人動画を機械学習で分析したら、視聴数急増の秘密が分かった

世の中に人工知能は存在しないのか？私たちはディープラーニングに騙されているのでしょうか？

なぜディープラーニングには局所最小値がないのでしょうか?

T1000が実現：我が国は液体金属駆動ロボットを開発中

アルゴリズムエンジニアの日常生活において、トレーニングされたモデルが失敗した場合はどうすればよいでしょうか?

サイバーセキュリティにおける人工知能の役割と6つの製品オプション

2021年も人気が続く5種類のロボット

テンセント、初のAI+医療製品「テンセントミイン」の発売を発表

推薦する

GitHub のネイティブ AI コード生成ツール Copilot が Visual Studio 2022 を正式にサポート

AI によって雇用が失われる場合、バックアッププランはありますか?

うつ病で人生が押しつぶされたとき、AIを使ってうつ病を診断することで、どん底を味わう人々を救えるのでしょうか？

検索意味モデルの大規模定量化実践

人工知能が診断ツールをどのように変えるのか

効率的なテストデータ生成と管理のための生成AI

AI 音声ジェネレーターとは何ですか? どのように機能しますか?

Adobe、フォトショップで加工された人間の顔を自動検出できるAIツールを開発

人間支援型人工知能の6つの利点

セマンティクスと機械学習が融合するとき

AIに勝てずイ・セドルが引退を発表

Alibaba DAMO Academyの従業員が空き時間に「紙の知識グラフ」を作成: 非常に高速な検索と完全な視覚化

ドローンが小型化するにつれて、その開発が成熟するためには3つの点を考慮する必要があります。

C# はデジタル変換のための中国語アルゴリズムを記述します