フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

フェイフェイ・リーの「具現化された知能」に関する新たな成果!ロボットは、大きなモデルに接続することで人間の言語を直接理解し、事前のトレーニングなしで複雑な指示を完了することができます。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

具現化された知能における、 Fei-Fei Li チームの最新の成果は次のとおりです。

大型モデルをロボットに接続することで、追加のデータやトレーニングを必要とせずに、複雑な指示を具体的な行動計画に変換します。

これからは、人間は自然言語を使って、以下のような指示をロボットに簡単に与えることができるようになります。

一番上の引き出しを開けて、花瓶に注意してください。

写真

大規模言語モデル + 視覚言語モデルは、3D 空間で回避する必要がある目標と障害物を分析できるため、ロボットが行動を計画するのに役立ちます。

ここで重要な点があります。現実世界のロボットは、何の「トレーニング」もなしにこのタスクを直接実行できます。

写真

この新しい手法により、日常的な作業の軌跡のゼロサンプル合成が実現され、ロボットがこれまで見たことのないタスクを、デモンストレーションを必要とせずに一発で実行できるようになります。

操作可能なオブジェクトもオープンになっており、事前に範囲を定義する必要がありません。ボトルを開けたり、スイッチを押したり、充電ケーブルを抜いたり、すべて行うことができます。

写真

現在、プロジェクトのホームページと論文がオンラインで公開されており、コードも間もなくリリースされる予定で、学術界で幅広い関心を集めています。

写真

マイクロソフトの元研究者は次のようにコメントしています。「この研究は、人工知能システムにおける最も重要かつ複雑な開発の最前線にあります。」

写真

特にロボット研究の分野では、動作計画の分野に新たな世界を開いたと述べる同僚もいました。

もともとAIの危険性を感じていなかったが、AIとロボットを組み合わせるこの研究によって見方が変わった人もいる。

ロボットはどのようにして人間の話し声を直接理解できるのでしょうか?

Fei-Fei Li 氏のチームは、下の図に示すように、このシステムを VoxPoser と名付けました。その原理は非常に単純です。

写真

まず、環境情報(カメラで収集された RGB-D 画像)と実行する自然言語の指示が与えられます。

次に、LLM (大規模言語モデル)はこれらの内容に基づいてコードを記述し、生成されたコードはVLM (視覚言語モデル)と対話して、システムが対応する操作指示マップ、つまり3D値マップを生成するようにガイドします。

いわゆる 3D バリュー マップは、アフォーダンス マップと制約マップの総称であり、 「どこで行動するか」「どのように行動するか」の両方を示します。

写真

このように、アクションプランナーを取り出し、生成された3Dマップをその目的関数とすることで、実行すべき最終的な操作軌道を合成することが可能になります。

このプロセスから、追加の事前トレーニングを必要とする従来の方法と比較して、この方法では大規模なモデルを使用してロボットが環境と対話する方法をガイドし、ロボットのトレーニングデータが不足しているという問題を直接解決していることがわかります。

さらに、この機能により、ゼロサンプル機能も実現します。上記の基本的なプロセスをマスターすれば、どのようなタスクでも実行できます。

具体的な実装では、著者は VoxPoser のアイデアを次のような複雑な式である最適化問題に変換します。

写真

人間が与える指示は広範囲に及ぶ可能性があり、文脈の理解が必要になることを考慮して、指示を多くのサブタスクに分割します。たとえば、冒頭の最初の例は、「引き出しの取っ手をつかむ」と「引き出しを開ける」で構成されています。

VoxPoser が目指すのは、各サブタスクを最適化し、一連のロボットの軌道を取得し、最終的に全体の作業負荷と作業時間を最小限に抑えることです。

LLM と VLM を使用して言語指示を 3D マップにマッピングするプロセスでは、システムは言語が豊富な意味空間を伝えることができることを考慮し、 関心のあるエンティティ」を使用してロボットの動作をガイドします。つまり、3D 値マップにマークされた値を通じて、どのオブジェクトがロボットにとって「魅力的」で、どのオブジェクトが「反発的」であるかを反映します。

写真

冒頭の例を見てみましょう。引き出しは「魅力的」で、花瓶は「反発的」です。

もちろん、これらの値がどのように生成されるかは、大規模言語モデルの理解能力に依存します。

最終的な軌跡合成中、言語モデルの出力はタスク全体を通じて変更されないため、出力をキャッシュし、閉ループの視覚的フィードバックを使用して生成されたコードを再評価することで、干渉に遭遇したときに迅速に再計画できます。

したがって、VoxPoser は強力な耐干渉能力を備えています。

廃紙は青いトレイに入れてください

以下は、実際の環境とシミュレーション環境での VoxPoser のパフォーマンスです(平均成功率で測定)

写真

どのような環境や状況(干渉の有無、指示が見えるかどうか)であっても、プリミティブベースのベースラインタスクよりも大幅に高いことがわかります。

最後に、著者は VoxPoser が4 つの「新たな機能」を生成したことに驚きました

(1)物理的特性を評価する。例えば、質量が不明なブロックが2つある場合、ロボットにツールを使用して物理的な実験を行い、どちらのブロックが重いかを判断します。

(2)行動的常識推論。例えば、テーブルセッティングのタスクで、ロボットに「私は左利きです」と伝えると、ロボットは文脈を通じてその意味を理解します。

(3)きめ細かな修正。例えば、「ティーポットの蓋をする」といった高い精度が求められる作業を行う際に、「1センチずれていますよ」といった正確な指示をロボットに与えて修正することができます。

(4)視覚に基づく多段階操作。例えば、ロボットに引き出しを正確に半分に開けるように指示する。オブジェクトモデルがないため、ロボットは情報不足でこのようなタスクを実行できない可能性があります。しかし、VoxPoserは視覚フィードバックに基づいて、最初に引き出しを完全に開き、ハンドルの変位を記録してから、引き出しを中間点まで押し戻して要件を満たすという多段階操作戦略を提案できます。

フェイフェイ・リー: コンピュータビジョンの 3 つの北極星

約 1 年前、Fei-Fei Li 氏はアメリカ芸術科学アカデミーのジャーナルに記事を寄稿し、コンピューター ビジョンの開発の 3 つの方向性を指摘しました。

  • 具現化されたAI
  • 視覚的推論
  • シーン理解

フェイフェイ・リーは、具現化された知能はヒューマノイドロボットだけを指すのではなく、宇宙空間を移動できる実体のある知能機械はすべて人工知能の一種であると考えています。

ImageNet が実世界の幅広い多様な画像を表現することを目指しているのと同様に、具現化された知能の研究では、洗濯物を畳むことから新しい街を探索することまで、複雑で多様な人間のタスクを解決する必要があります。

これらのタスクを実行するための指示に従うには視覚が必要ですが、視覚だけではなく、シーン内の 3 次元の関係を理解するための視覚的推論も必要です。

最後に、機械は、人間の意図や社会的関係など、その場にいる人々も理解する必要があります。例えば、冷蔵庫を開けている人を見ればお腹が空いていることが分かりますし、大人の膝の上に座っている子どもを見れば親子関係であることが分かります。

大型モデルと組み合わせたロボットは、これらの問題を解決する方法となるかもしれません。

写真

この研究には、フェイフェイ・リー氏のほか、清華大学ヤオ・クラスの卒業生で、MITで博士号を取得し、現在はスタンフォード大学の助教授を務めるウー・ジアジュン氏も参加している。

写真

論文の筆頭著者であるウェンロン・ファン氏は現在スタンフォード大学の博士課程に在籍しており、Googleでのインターンシップ中にPaLM-Eの研究に参加した。

写真

論文アドレス: https://voxposer.github.io/voxposer.pdf
プロジェクトのホームページ: https://voxposer.github.io/

<<:  陳丹奇のACL学術レポートがここにあります!大規模モデル「プラグイン」データベースの7つの主要な方向性と3つの主要な課題の詳細な説明、3時間の実践的な知識

>>:  コンテキストの長さを 256k に拡張すると、LongLLaMA の無限コンテキスト バージョンが登場しますか?

ブログ    
ブログ    
ブログ    

推薦する

AIと機械学習の統合アーキテクチャ:インテリジェントな意思決定を可能にする

人工知能 (AI) と機械学習の台頭により、あらゆる業界に大きな変化が起きています。データ量が増加し...

...

500以上の研究と50以上のモデルを網羅したコードビッグモデルレビューがここにあります

BERT や GPT などの事前トレーニング済みのトランスフォーマーの登場により、言語モデリングは近...

IoT、エッジコンピューティング、AIプロジェクトが企業にもたらす利益

[[385209]]ビル・ホームズは、象徴的なフェンダー・ストラトキャスターとテレキャスターのギター...

100,000 台以上の Vision Transformer を一度にトレーニングするにはどうすればよいでしょうか?

[[413052]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

最近 IT 業界で起こったいくつかの大きな出来事についてお話ししましょう。

新年が明けたばかりですが、新しい技術、新しい知識、新しいコンテンツが次々と登場し、新年早々も怠けるこ...

美団の店舗ビジネスにおける異種広告混合配置の探求と実践

著者 | 屈譚旭洋 他LBS (位置情報サービス) の距離制約により、候補数が少ないと店内広告ランキ...

人工知能はサーバーを冷却するために大量の水を必要とする

あらゆる計算集約型のアクティビティと同様に、ChatGPT のような AI システムでは大量の処理と...

ビル・ゲイツ:この伝染病は[諸刃の剣]であり、人工知能はエイズとCOVID-19を治すと期待されています!

序文:科学技術界の頂点に立つビル・ゲイツ氏は、2015年にTEDで「今後数十年のうちに、核戦争よりも...

ロボット工学の未来:人間とロボットのコラボレーション

IoT テクノロジー、ロボット、人間が相互運用されると、高度なロボット機能が実現され、新しいアプリケ...

Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する

Zhongcheng が翻訳した記事にはタグが付けられています。ユーザーはタグに基づいて興味のある記...

オープンソース! Gartner の 100 ページの機械学習ブックが無料でダウンロードできるようになりました。

今日の大企業は、産業化以来最大の変革を経験しています。人工知能は、産業や私たちの働き方、考え方、交流...

テクノロジーが建設業界に及ぼす8つの影響

人工知能 (AI): ChatGPT などのツールの最近の登場により、AI はビルダーの間で注目を集...

「ユーザーを数える」、なぜTikTokはこんなにも中毒性があるのでしょうか?

かわいい子犬や遊び好きな子猫を見るのが好きな人はいないでしょうか?特に、新型コロナウイルス感染症のパ...

K近傍教師あり学習マシンアルゴリズムの詳細な分析

翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟K 近傍法 (KNN) は、機械学習アルゴリズムにおける回...