フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

具現化された知能における、 Fei-Fei Li チームの最新の成果は次のとおりです。

大型モデルをロボットに接続することで、追加のデータやトレーニングを必要とせずに、複雑な指示を具体的な行動計画に変換します。

これからは、人間は自然言語を使って、以下のような指示をロボットに簡単に与えることができるようになります。

一番上の引き出しを開けて、花瓶に注意してください。

写真

大規模言語モデル + 視覚言語モデルは、3D 空間で回避する必要がある目標と障害物を分析できるため、ロボットが行動を計画するのに役立ちます。

ここで重要な点があります。現実世界のロボットは、何の「トレーニング」もなしにこのタスクを直接実行できます。

写真

この新しい手法により、日常的な作業の軌跡のゼロサンプル合成が実現され、ロボットがこれまで見たことのないタスクを、デモンストレーションを必要とせずに一発で実行できるようになります。

操作可能なオブジェクトもオープンになっており、事前に範囲を定義する必要がありません。ボトルを開けたり、スイッチを押したり、充電ケーブルを抜いたり、すべて行うことができます。

写真

現在、プロジェクトのホームページと論文がオンラインで公開されており、コードも間もなくリリースされる予定で、学術界で幅広い関心を集めています。

写真

マイクロソフトの元研究者は次のようにコメントしています。「この研究は、人工知能システムにおける最も重要かつ複雑な開発の最前線にあります。」

写真

特にロボット研究の分野では、動作計画の分野に新たな世界を開いたと述べる同僚もいました。

もともとAIの危険性を感じていなかったが、AIとロボットを組み合わせるこの研究によって見方が変わった人もいる。

ロボットはどのようにして人間の話し声を直接理解できるのでしょうか?

Fei-Fei Li 氏のチームは、下の図に示すように、このシステムを VoxPoser と名付けました。その原理は非常に単純です。

写真

まず、環境情報(カメラで収集された RGB-D 画像)と実行する自然言語の指示が与えられます。

次に、LLM (大規模言語モデル)はこれらの内容に基づいてコードを記述し、生成されたコードはVLM (視覚言語モデル)と対話して、システムが対応する操作指示マップ、つまり3D値マップを生成するようにガイドします。

いわゆる 3D バリュー マップは、アフォーダンス マップと制約マップの総称であり、 「どこで行動するか」「どのように行動するか」の両方を示します。

写真

このように、アクションプランナーを取り出し、生成された3Dマップをその目的関数とすることで、実行すべき最終的な操作軌道を合成することが可能になります。

このプロセスから、追加の事前トレーニングを必要とする従来の方法と比較して、この方法では大規模なモデルを使用してロボットが環境と対話する方法をガイドし、ロボットのトレーニングデータが不足しているという問題を直接解決していることがわかります。

さらに、この機能により、ゼロサンプル機能も実現します。上記の基本的なプロセスをマスターすれば、どのようなタスクでも実行できます。

具体的な実装では、著者は VoxPoser のアイデアを次のような複雑な式である最適化問題に変換します。

写真

人間が与える指示は広範囲に及ぶ可能性があり、文脈の理解が必要になることを考慮して、指示を多くのサブタスクに分割します。たとえば、冒頭の最初の例は、「引き出しの取っ手をつかむ」と「引き出しを開ける」で構成されています。

VoxPoser が目指すのは、各サブタスクを最適化し、一連のロボットの軌道を取得し、最終的に全体の作業負荷と作業時間を最小限に抑えることです。

LLM と VLM を使用して言語指示を 3D マップにマッピングするプロセスでは、システムは言語が豊富な意味空間を伝えることができることを考慮し、 関心のあるエンティティ」を使用してロボットの動作をガイドします。つまり、3D 値マップにマークされた値を通じて、どのオブジェクトがロボットにとって「魅力的」で、どのオブジェクトが「反発的」であるかを反映します。

写真

冒頭の例を見てみましょう。引き出しは「魅力的」で、花瓶は「反発的」です。

もちろん、これらの値がどのように生成されるかは、大規模言語モデルの理解能力に依存します。

最終的な軌跡合成中、言語モデルの出力はタスク全体を通じて変更されないため、出力をキャッシュし、閉ループの視覚的フィードバックを使用して生成されたコードを再評価することで、干渉に遭遇したときに迅速に再計画できます。

したがって、VoxPoser は強力な耐干渉能力を備えています。

廃紙は青いトレイに入れてください

以下は、実際の環境とシミュレーション環境での VoxPoser のパフォーマンスです(平均成功率で測定)

写真

どのような環境や状況(干渉の有無、指示が見えるかどうか)であっても、プリミティブベースのベースラインタスクよりも大幅に高いことがわかります。

最後に、著者は VoxPoser が4 つの「新たな機能」を生成したことに驚きました

(1)物理的特性を評価する。例えば、質量が不明なブロックが2つある場合、ロボットにツールを使用して物理的な実験を行い、どちらのブロックが重いかを判断します。

(2)行動的常識推論。例えば、テーブルセッティングのタスクで、ロボットに「私は左利きです」と伝えると、ロボットは文脈を通じてその意味を理解します。

(3)きめ細かな修正。例えば、「ティーポットの蓋をする」といった高い精度が求められる作業を行う際に、「1センチずれていますよ」といった正確な指示をロボットに与えて修正することができます。

(4)視覚に基づく多段階操作。例えば、ロボットに引き出しを正確に半分に開けるように指示する。オブジェクトモデルがないため、ロボットは情報不足でこのようなタスクを実行できない可能性があります。しかし、VoxPoserは視覚フィードバックに基づいて、最初に引き出しを完全に開き、ハンドルの変位を記録してから、引き出しを中間点まで押し戻して要件を満たすという多段階操作戦略を提案できます。

フェイフェイ・リー: コンピュータビジョンの 3 つの北極星

約 1 年前、Fei-Fei Li 氏はアメリカ芸術科学アカデミーのジャーナルに記事を寄稿し、コンピューター ビジョンの開発の 3 つの方向性を指摘しました。

  • 具現化されたAI
  • 視覚的推論
  • シーン理解

フェイフェイ・リーは、具現化された知能はヒューマノイドロボットだけを指すのではなく、宇宙空間を移動できる実体のある知能機械はすべて人工知能の一種であると考えています。

ImageNet が実世界の幅広い多様な画像を表現することを目指しているのと同様に、具現化された知能の研究では、洗濯物を畳むことから新しい街を探索することまで、複雑で多様な人間のタスクを解決する必要があります。

これらのタスクを実行するための指示に従うには視覚が必要ですが、視覚だけではなく、シーン内の 3 次元の関係を理解するための視覚的推論も必要です。

最後に、機械は、人間の意図や社会的関係など、その場にいる人々も理解する必要があります。例えば、冷蔵庫を開けている人を見ればお腹が空いていることが分かりますし、大人の膝の上に座っている子どもを見れば親子関係であることが分かります。

大型モデルと組み合わせたロボットは、これらの問題を解決する方法となるかもしれません。

写真

この研究には、フェイフェイ・リー氏のほか、清華大学ヤオ・クラスの卒業生で、MITで博士号を取得し、現在はスタンフォード大学の助教授を務めるウー・ジアジュン氏も参加している。

写真

論文の筆頭著者であるウェンロン・ファン氏は現在スタンフォード大学の博士課程に在籍しており、Googleでのインターンシップ中にPaLM-Eの研究に参加した。

写真

論文アドレス: https://voxposer.github.io/voxposer.pdf
プロジェクトのホームページ: https://voxposer.github.io/

<<:  陳丹奇のACL学術レポートがここにあります!大規模モデル「プラグイン」データベースの7つの主要な方向性と3つの主要な課題の詳細な説明、3時間の実践的な知識

>>:  コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

ブログ    

推薦する

宝くじに当たるのは雷に打たれるより難しいですか?確率を向上させるためにアルゴリズムを使ってみる

宝くじで生計を立てる可能性はどれくらいありますか? 2005年、MITの学生グループが集まり、ギャン...

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が...

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

テクノロジーの進歩により、人工知能 (AI) が徐々に出版業界に参入し始めており、特にオーディオブッ...

シェア | 人工知能の典型的な12の事例

今日では AI の例が非常に多く存在するため、代表的な AI の事例をいくつか選択することは困難です...

コンピュータビジョンプロジェクト: 10 個の高品質オープンソースデータセットがリリースされました

コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン...

Java プログラミング スキル - データ構造とアルゴリズム「分割統治アルゴリズム」

[[398991]]アルゴリズムの紹介分割統治アルゴリズムは非常に重要です。文字通りの説明は「分割...

人工知能が人間に取って代わることは決してない

午後は、かわいい子供たちを連れて映画「頭の大きい息子と頭の小さいお父さん 完璧なお父さん」を見に行き...

...

人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...

顔認証決済には注意しましょう。お金を盗まれる可能性があります

受動的な収集は防御が難しい一部の学校では、この技術を搭載したカメラを使用して、生徒の授業状況を監視し...

...

李蘭娟氏との対話:人工知能は流行病を「すべて捕捉」し、医療をより正確にする

[[353851]] 「新型コロナウイルス感染症の突然の発生は、厳しい課題、不確実性、状況の進展の複...

機械学習の戦略原則: 基本プロセス、アルゴリズムフレームワーク、プロジェクト管理

著者: cooperyjli、Tencent CDG のデータ アナリスト機械学習は、データの収集、...