フェイフェイ・リーの「具現化された知能」に関する新たな成果！ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

具現化された知能における、 Fei-Fei Li チームの最新の成果は次のとおりです。

大型モデルをロボットに接続することで、追加のデータやトレーニングを必要とせずに、複雑な指示を具体的な行動計画に変換します。

これからは、人間は自然言語を使って、以下のような指示をロボットに簡単に与えることができるようになります。

一番上の引き出しを開けて、花瓶に注意してください。

写真

大規模言語モデル + 視覚言語モデルは、3D 空間で回避する必要がある目標と障害物を分析できるため、ロボットが行動を計画するのに役立ちます。

ここで重要な点があります。現実世界のロボットは、何の「トレーニング」もなしにこのタスクを直接実行できます。

写真

この新しい手法により、日常的な作業の軌跡のゼロサンプル合成が実現され、ロボットがこれまで見たことのないタスクを、デモンストレーションを必要とせずに一発で実行できるようになります。

操作可能なオブジェクトもオープンになっており、事前に範囲を定義する必要がありません。ボトルを開けたり、スイッチを押したり、充電ケーブルを抜いたり、すべて行うことができます。

写真

現在、プロジェクトのホームページと論文がオンラインで公開されており、コードも間もなくリリースされる予定で、学術界で幅広い関心を集めています。

写真

マイクロソフトの元研究者は次のようにコメントしています。「この研究は、人工知能システムにおける最も重要かつ複雑な開発の最前線にあります。」

写真

特にロボット研究の分野では、動作計画の分野に新たな世界を開いたと述べる同僚もいました。

もともとAIの危険性を感じていなかったが、AIとロボットを組み合わせるこの研究によって見方が変わった人もいる。

ロボットはどのようにして人間の話し声を直接理解できるのでしょうか?

Fei-Fei Li 氏のチームは、下の図に示すように、このシステムを VoxPoser と名付けました。その原理は非常に単純です。

写真

まず、環境情報(カメラで収集された RGB-D 画像)と実行する自然言語の指示が与えられます。

次に、LLM （大規模言語モデル）はこれらの内容に基づいてコードを記述し、生成されたコードはVLM （視覚言語モデル）と対話して、システムが対応する操作指示マップ、つまり3D値マップを生成するようにガイドします。

いわゆる 3D バリューマップは、アフォーダンスマップと制約マップの総称であり、 「どこで行動するか」と「どのように行動するか」の両方を示します。

写真

このように、アクションプランナーを取り出し、生成された3Dマップをその目的関数とすることで、実行すべき最終的な操作軌道を合成することが可能になります。

このプロセスから、追加の事前トレーニングを必要とする従来の方法と比較して、この方法では大規模なモデルを使用してロボットが環境と対話する方法をガイドし、ロボットのトレーニングデータが不足しているという問題を直接解決していることがわかります。

さらに、この機能により、ゼロサンプル機能も実現します。上記の基本的なプロセスをマスターすれば、どのようなタスクでも実行できます。

具体的な実装では、著者は VoxPoser のアイデアを次のような複雑な式である最適化問題に変換します。

写真

人間が与える指示は広範囲に及ぶ可能性があり、文脈の理解が必要になることを考慮して、指示を多くのサブタスクに分割します。たとえば、冒頭の最初の例は、「引き出しの取っ手をつかむ」と「引き出しを開ける」で構成されています。

VoxPoser が目指すのは、各サブタスクを最適化し、一連のロボットの軌道を取得し、最終的に全体の作業負荷と作業時間を最小限に抑えることです。

LLM と VLM を使用して言語指示を 3D マップにマッピングするプロセスでは、システムは言語が豊富な意味空間を伝えることができることを考慮し、「関心のあるエンティティ」を使用してロボットの動作をガイドします。つまり、3D 値マップにマークされた値を通じて、どのオブジェクトがロボットにとって「魅力的」で、どのオブジェクトが「反発的」であるかを反映します。

写真

冒頭の例を見てみましょう。引き出しは「魅力的」で、花瓶は「反発的」です。

もちろん、これらの値がどのように生成されるかは、大規模言語モデルの理解能力に依存します。

最終的な軌跡合成中、言語モデルの出力はタスク全体を通じて変更されないため、出力をキャッシュし、閉ループの視覚的フィードバックを使用して生成されたコードを再評価することで、干渉に遭遇したときに迅速に再計画できます。

したがって、VoxPoser は強力な耐干渉能力を備えています。

△廃紙は青いトレイに入れてください

以下は、実際の環境とシミュレーション環境での VoxPoser のパフォーマンスです(平均成功率で測定) 。

写真

どのような環境や状況（干渉の有無、指示が見えるかどうか）であっても、プリミティブベースのベースラインタスクよりも大幅に高いことがわかります。

最後に、著者は VoxPoser が4 つの「新たな機能」を生成したことに驚きました。

（１）物理的特性を評価する。例えば、質量が不明なブロックが２つある場合、ロボットにツールを使用して物理的な実験を行い、どちらのブロックが重いかを判断します。

（２）行動的常識推論。例えば、テーブルセッティングのタスクで、ロボットに「私は左利きです」と伝えると、ロボットは文脈を通じてその意味を理解します。

（３）きめ細かな修正。例えば、「ティーポットの蓋をする」といった高い精度が求められる作業を行う際に、「１センチずれていますよ」といった正確な指示をロボットに与えて修正することができます。

（4）視覚に基づく多段階操作。例えば、ロボットに引き出しを正確に半分に開けるように指示する。オブジェクトモデルがないため、ロボットは情報不足でこのようなタスクを実行できない可能性があります。しかし、VoxPoserは視覚フィードバックに基づいて、最初に引き出しを完全に開き、ハンドルの変位を記録してから、引き出しを中間点まで押し戻して要件を満たすという多段階操作戦略を提案できます。

フェイフェイ・リー: コンピュータビジョンの 3 つの北極星

約 1 年前、Fei-Fei Li 氏はアメリカ芸術科学アカデミーのジャーナルに記事を寄稿し、コンピュータービジョンの開発の 3 つの方向性を指摘しました。

具現化されたAI
視覚的推論
シーン理解

フェイフェイ・リーは、具現化された知能はヒューマノイドロボットだけを指すのではなく、宇宙空間を移動できる実体のある知能機械はすべて人工知能の一種であると考えています。

ImageNet が実世界の幅広い多様な画像を表現することを目指しているのと同様に、具現化された知能の研究では、洗濯物を畳むことから新しい街を探索することまで、複雑で多様な人間のタスクを解決する必要があります。

これらのタスクを実行するための指示に従うには視覚が必要ですが、視覚だけではなく、シーン内の 3 次元の関係を理解するための視覚的推論も必要です。

最後に、機械は、人間の意図や社会的関係など、その場にいる人々も理解する必要があります。例えば、冷蔵庫を開けている人を見ればお腹が空いていることが分かりますし、大人の膝の上に座っている子どもを見れば親子関係であることが分かります。

大型モデルと組み合わせたロボットは、これらの問題を解決する方法となるかもしれません。

写真

この研究には、フェイフェイ・リー氏のほか、清華大学ヤオ・クラスの卒業生で、MITで博士号を取得し、現在はスタンフォード大学の助教授を務めるウー・ジアジュン氏も参加している。

写真

論文の筆頭著者であるウェンロン・ファン氏は現在スタンフォード大学の博士課程に在籍しており、Googleでのインターンシップ中にPaLM-Eの研究に参加した。

写真

論文アドレス: https://voxposer.github.io/voxposer.pdf
プロジェクトのホームページ: https://voxposer.github.io/

<<: 陳丹奇のACL学術レポートがここにあります!大規模モデル「プラグイン」データベースの7つの主要な方向性と3つの主要な課題の詳細な説明、3時間の実践的な知識

>>: コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキストバージョンが登場しますか?

ブログ

ブログ

推論速度は22.3倍に向上。北京航空航天大学とバイトダンスはバイナリキーワード認識モデルを提案した。

ブログ

フェイフェイ・リーの「具現化された知能」に関する新たな成果！ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

ロボットはどのようにして人間の話し声を直接理解できるのでしょうか?

フェイフェイ・リー: コンピュータビジョンの 3 つの北極星

機械学習におけるモデル展開とは何ですか?

知遠の「盗作スキャンダル」最新報道：盗作2件、不正引用4件、関係者全員が自主辞任

AIは黄金時代を迎えているのか、それとも冬を迎えようとしているのか?

「システムアーキテクチャ」マイクロサービスサービス劣化

機械学習を使うべきタイミング

推論速度は22.3倍に向上。北京航空航天大学とバイトダンスはバイナリキーワード認識モデルを提案した。

推薦する

百度が銀川市で初のインテリジェントネットワーク試験ライセンスを獲得し、自動運転車が銀川市の公道でデビューした。

米軍のAIブラックテクノロジー：暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか？

テキスト処理から自動運転まで: 機械学習で最もよく使われる 50 の無料データセット

人工知能が教育改革にどのように貢献しているかをご覧ください

顔認識の時代に顔を守る方法

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

2024年のAIに関する5つの予測

なぜスパムメールがこんなに多いのでしょうか？ Redditの男が機械学習の残酷な現実を暴露

OpenOOD アップデート v1.5: 包括的かつ正確な分布検出コードベースとテストプラットフォーム、オンラインランキングとワンクリックテストをサポート

ドローンの出現と市場の需要の変化