ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」が次の発展の方向になるはずだと私たちは知っています。

大規模なモデルをロボットに接続し、単純な自然言語を使用して複雑な指示を置き換え、追加のデータやトレーニングを必要とせずに具体的な行動計画を作成するというのは、美しいビジョンのように思えますが、少し遠いようにも思えます。結局のところ、ロボット工学の分野は非常に難しいことで有名です。

しかし、AIは私たちが想像するよりも速く進化しています。

今週の金曜日、 Google DeepMind は、ロボットを制御するための世界初の視覚・言語・行動 (VLA) モデルである RT-2 のリリースを発表しました

今では、複雑なコマンドを使用する代わりに、ChatGPT のようにロボットを直接制御できます。

写真

RT-2 はどれくらいインテリジェントですか? DeepMindの研究者はロボットアームを使ってこれを実演した。彼らはAIに「絶滅した動物」を選ぶように指示した。アームが伸び、爪が開いて落ち、恐竜の人形をつかんだ。

写真

これまで、ロボットは見たことのない物体を確実に理解することができず、「絶滅した動物」と「プラスチックの恐竜人形」を結びつけるような推論を行うことはできなかった。

ロボットにテイラー・スウィフトにコーラの缶を渡すように指示します。

このロボットは本物のファンであることがわかり、それは人間にとって朗報です。

ChatGPT のような大規模な言語モデルの開発は、ロボット工学の分野に革命をもたらしています。Google は最先端の言語モデルをロボットに搭載し、ついにロボットに人工脳を搭載できるようにしました。

DeepMindが最近提出した論文の中で、研究者らは、RT-2モデルはネットワークとロボットのデータに基づいてトレーニングされ、Bardなどの大規模言語モデルの研究の進歩を活用し、それをロボットのデータと組み合わせたと述べています。新しいモデルは英語以外の指示も理解できます。

グーグルの幹部は、RT-2はロボットの製造とプログラミングの方法における大きな進歩だと述べた。 「この変化により、私たちは研究アプローチ全体を再考する必要がある」と、グーグル・ディープマインドのロボット工学責任者、ヴィンセント・ヴァンホーケ氏は語った。 「私たちが以前やっていたことの多くは、完全に役に立たなくなってしまいました。」

RT-2はどのように機能しますか?

DeepMind の RT-2 は Robotic Transformer、つまりロボットのトランスフォーマー モデルです。

ロボットに人間の言語を理解させ、SF映画のように生存能力を発揮させることは簡単なことではありません。仮想環境と比較すると、現実の物理世界は複雑で無秩序であり、ロボットは通常、人間に代わって単純なことを行うために複雑な指示を必要とします。対照的に、人間は本能的に何をすべきかを知っています。

これまで、ロボットのトレーニングには長い時間がかかり、研究者はさまざまなタスクごとに個別のソリューションを構築する必要がありました。RT-2 の強力な機能により、ロボットはより多くの情報を独自に分析し、次に何をすべきかを推測できるようになります。

RT-2 は、ビジョン言語モデル (VLM) を基盤として、ネットワークとロボットのデータから学習し、その知識をロボットが制御できる一般的な指示に変換できるビジョン言語アクション (VLA) モデルという新しい概念を生み出しました。このモデルは、疲れた人にはどの飲み物が最適か(エナジードリンク)などの思考連鎖の手がかりを使用することさえできました。

RT-2 アーキテクチャとトレーニングプロセス

実際、Google は昨年早くも RT-1 バージョンのロボットをリリースしました。RT-1 は、事前トレーニング済みのモデルを 1 つだけ使用して、さまざまな感覚入力 (視覚、テキストなど) から指示を生成し、複数のタスクを実行できます。

事前トレーニング モデルとして、それを適切に構築するには、当然ながら自己教師学習のための大量のデータが必要です。 RT-2 は RT-1 をベースにしており、17 か月間にわたりオフィスやキッチン環境で 13 台のロボットによって収集された RT-1 のデモンストレーション データを使用します。

DeepMindはVLAモデルを作成した

前述のように、RT-2 は VLM 上に構築されており、VLM モデルは Web 規模のデータでトレーニングされており、視覚的な質問への回答、画像のキャプション作成、オブジェクト認識などのタスクを実行するために使用できます。さらに、研究者らは、以前に提案された2つのVLMモデル、PaLI-X(Pathways Language and Image model)とPaLM-E(Pathways Language model Embodied)をRT-2のバックボーンとして採用し、これらのモデルの視覚・言語・行動バージョンをRT-2-PaLI-XとRT-2-PaLM-Eと名付けました。

視覚言語モデルがロボットを制御するには、まだアクション制御というステップが残っています。この研究では非常にシンプルなアプローチを採用しました。ロボットの動作を別の言語、つまりテキスト トークンとして表現し、Web 規模の視覚言語データセットとともにトレーニングしました。

ロボットの動作のエンコードは、Brohan らが RT-1 モデル用に提案した離散化手法に基づいています。

下の図に示すように、この研究ではロボットの動作をテキスト文字列として表現します。これは、「1 128 91 241 5 101 127 217」などのロボットの動作トークン番号のシーケンスである場合があります。

文字列は、ロボットに現在のエピソードを続行するか終了するかを指示するフラグで始まり、ロボットはその指示に従ってエンド エフェクタとロボット グリッパーの位置と回転を変更します。

アクションはテキスト文字列として表されるため、ロボットがアクション コマンドを実行するのは、文字列コマンドを実行するのと同じくらい簡単です。この表現により、既存の視覚言語モデルを直接微調整し、視覚言語アクション モデルに変換できます。

推論中、テキスト トークンはロボットのアクションに分解され、閉ループ制御が実現されます。

実験

研究者らは、RT-2 モデルに関して一連の定性的および定量的実験を実施しました。

下の図は、RT-2 の意味理解と基本推論のパフォーマンスを示しています。たとえば、「イチゴを正しいボウルに入れる」というタスクでは、RT-2 はイチゴとボウルの表現を理解するだけでなく、シーンのコンテキストで推論して、イチゴを同様の果物と一緒に配置する必要があることを認識する必要があります。 「テーブルから落ちそうなバッグを拾う」というタスクでは、RT-2 は 2 つのバッグを区別し、不安定な位置にある物体を識別するために、バッグの物理的特性を理解する必要があります。

これらすべてのシナリオでテストされたインタラクションは、ロボット データではこれまで見られなかったことに注意する必要があります。

下の図は、4 つのベンチマークにおいて、RT-2 モデルが以前の RT-1 およびビジョン事前トレーニング済み (VC-1) ベースラインよりも優れていることを示しています。

RT-2 は、元のタスクでのロボットのパフォーマンスを維持し、これまでに見たことのないシーンでのロボットのパフォーマンスを RT-1 の 32% から 62% に向上させます。

一連の結果は、視覚言語モデル (VLM) を強力な視覚言語アクション (VLA) モデルに変換でき、VLM 事前トレーニングとロボット データを組み合わせることでロボットを直接制御できることを示しています。

ChatGPTと同様に、この機能が大規模に適用されれば、世界はおそらく大きな変化を遂げるでしょう。しかし、グーグルはRT-2ロボットをすぐに使用する予定はなく、人間の言語を理解できるこれらのロボットは能力を実証するレベルにとどまらないだろうと研究者は考えているとだけ述べている。

言語モデルを内蔵したロボットを想像してみてください。このロボットは倉庫に入れられ、薬を受け取ったり、洗濯物を畳んだり、食器洗い機から食器を取り出したり、家の中のものを片付けたりするホームアシスタントとしても使えます。

これにより、本当に有人環境でのロボットの使用への扉が開かれ、肉体労働を必要とするあらゆる方向を担うことができるようになるかもしれません。つまり、ChatGPTが仕事に与える影響を予測する以前のOpenAIレポートでは、大規模なモデルでは影響できなかった部分をカバーできるようになります。

具現化された知性、それは遠い未来ではないでしょうか?

最近では、具現化された知能は多くの研究者が研究している方向性です。今月、スタンフォード大学のフェイフェイ・リー氏のチームが新たな成果を披露した。視覚言語モデルに大規模言語モデルを追加することで、AIは3D空間で分析と計画を行い、ロボットの動作を誘導できる。

写真

知慧君氏の汎用ヒューマノイドロボットスタートアップ「Agibot」が昨夜公開したビデオでは、ロボットが大規模な言語モデルに基づいて自動的に行動を調整し、タスクを実行する能力も披露された。

写真

8月には、志慧軍氏の会社が最近の成果のいくつかを披露する予定だ。

大型モデルの分野では大きな出来事が起ころうとしていることがわかります。

<<:  VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

>>:  GPT-X に基づく製品コピーライティングと画像生成の実践

ブログ    
ブログ    
ブログ    

推薦する

分散型ディープラーニングの新たな進歩:「分散」と「ディープラーニング」の真の統合

近年、急速に発展している人工知能の分野のひとつであるディープラーニングは、NLP、画像認識、音声認識...

Facebook、顔認識システムの停止を決定

顔認識は、効率、利便性、正確性、非接触という特徴により、セキュリティ、支払い、交通、オフィスなどのシ...

Google、AIの地位強化のためデータサイエンスコミュニティKaggleの買収を発表

Google は本日、データサイエンスと機械学習のコンテストを主催するオンライン サービスである K...

...

人工知能によるUAV戦闘能力の向上

[[282882]]リーパードローンつい最近、米国空軍は、リーパー無人航空機の製造元であるゼネラル・...

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

実際、ChatGPTによって引き起こされたこの新しいAIの波では、世界的なテクノロジー大手、AIメー...

映画業界におけるAI:将来はアカデミー賞の背後にAIが立つ

[[258542]]最近終了した2019年のアカデミー賞授賞式では、最優秀脚本賞や最優秀視覚効果賞を...

あなたの頭上に「ロボット」がやって来ます!起業家の知恵:リアルタイムで位置を特定し、自動的に警報を鳴らすスマートヘルメットの開発

[[317160]]建設作業中には、火災、電気、機械など、多くの潜在的な安全上の危険が存在します。安...

Aスターアルゴリズムの実装手順のJavaバージョン

スターアルゴリズムの手順: 1. 最初に、オープン リストに開始点を追加します。 2. オープンリス...

...

...

動物の顔認識技術は何に使われますか?

動物を正確に識別できる技術は、迷子になった動物を飼い主と再会させたり、農家が家畜を監視したり、研究者...

インテリジェント PDU について...

専門的な配電設備として、PDU は基本型とインテリジェント型の 2 つのタイプに分けられます。インテ...

機械学習の落とし穴を避ける: データはアルゴリズムよりも重要

ユーザー行動分析とネットワーク脅威検出、新たな波が起こり続けています。セキュリティ データ分析は、状...