MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

MIT のこの新しい成果により、物体ピックアップロボットがよりスマートになります。

自然言語のコマンドを理解できるだけでなく、これまで見たことのない物体を拾い上げることもできます。

ママはもう私が物を見つけられなくなることを心配しなくていいよ!

研究者らは、2D 特徴を 3 次元空間に埋め込み、ロボットを制御するための特徴フィールド (F3RM) を構築しました。

このようにして、2D 画像内に構築された画像の特徴と意味データは、3 次元ロボットによって理解され、利用できるようになります。

操作が簡単なだけでなく、トレーニング中に必要なサンプルの量も非常に少なくなります。

トレーニングサンプルが少ないため、オブジェクトの検索が容易

F3RM の助けを借りて、ロボットが目標物を巧みに拾い上げることができることがわかります。

ロボットがこれまで遭遇したことのない物体を見つけることも問題ではありません。

例えば…ダバイ(人形)。

シーン内の同じ種類のオブジェクトについては、色などの情報に基づいて区別することができます。

たとえば、同じシーンで青と赤の 2 つの異なるドライバーを拾います。

それだけでなく、ロボットに物体の特定の場所をつかむように指示することもできます。

たとえば、このカップの場合、ロボットがカップ本体またはハンドルをつかむように指定できます。

ピッキング問題に加えて、ロボットは拾ったアイテムを指定された場所に置くこともできます。

たとえば、カップをそれぞれ木製のスタンドと透明なスタンドに置きます。

チームは、フィルタリングされていない完全な実験結果を提供しました。彼らは研究室の周囲から無作為に分布外の試験サンプルを選択しました。

その中で、CLIP ResNet 機能を使用した特徴フィールドは、テストサンプルの 30% 以上 (78%) で正常にキャプチャされ、配置されました。オープンエンドの人工言語指示に基づくタスクでは、成功率は 60% でした。結果は厳選されたものではないため、ゼロチューニング シナリオでの特徴フィールドのパフォーマンスの客観的な説明を提供します。

では、F3RM をどのように使用してロボットの動作を支援できるのでしょうか?

2D フィーチャを 3D 空間に投影する

次の図は、F3RM を使用してロボットが物体を拾うのを支援するワークフローを大まかに説明しています。

F3RM は特性フィールドです。これを機能させるには、まず関連するデータを取得する必要があります。

下の図の最初の 2 つの手順は、F3RM 情報を取得するためのものです。


まず、ロボットはカメラでシーンをスキャンします。

スキャンプロセスでは、複数の角度からの RGB 画像と画像の特徴が同時に取得されます。

NeRF テクノロジーを使用して、これらの画像の 2D 密度情報が抽出され、3 次元空間に投影されます。

画像と密度の特徴を抽出するために、次のアルゴリズムが使用されます。

これにより、ロボットが使用できるシーンの 3D 特徴フィールドが得られます。

特徴フィールドを取得した後、ロボットはさまざまなオブジェクトを拾い上げるために、そのオブジェクトを操作する方法も知る必要があります。

このプロセス中に、ロボットは対応する 6 自由度のアームの動きの情報を学習します。

未知のシーンに遭遇した場合は、既知のデータとの類似度が計算されます。

次に、類似性を最大化して未知の環境での操作を実現するようにアクションが最適化されます。

自然言語制御のプロセスは、前のステップと非常に似ています。

まず、指示に従って CLIP データセットから特徴情報を見つけ、マシンの知識ベースから最も類似性の高い DEMO を取得します。

次に、予測されたポーズも、最高の類似性を達成するように最適化されます。

最適化が完了したら、対応するアクションを実行してオブジェクトを取得できます。

このプロセスを経て、サンプルサイズが少ない言語制御ピッキングロボットが完成しました。

チームについて

研究チームのメンバーは全員、MIT の CSAIL (コンピュータ科学および人工知能研究所) 出身です。

この研究所は MIT 最大の研究所であり、2003 年に CS 研究所と AI 研究所が合併して設立されました。

共同筆頭著者は、中国人博士課程学生のウィリアム・シェン氏と中国人ポスドク研究員のヤン・ゲ氏で、指導はフィリップ・イゾラ氏とレスリー・ケルブリング氏が担当している。彼らは、MIT CSAIL (コンピューティングおよび人工知能研究所) と IAIFI (人工知能および基礎的相互作用研究所) の出身です。 Yang Ge は、2023 CSAIL Embodied Intelligence Seminar の共同主催者です。

左:ウィリアム・シェン、右:ヤン・ゲ

論文アドレス: https://arxiv.org/abs/2308.07931
プロジェクトホームページ: https://f3rm.github.io
MIT エンボディド インテリジェンス チーム https://ei.csail.mit.edu/people.html
エンボディドインテリジェンスセミナー https://www.youtube.com/channel/UCnXGbvgu9071i3koFooncAw

<<:  すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目

>>:  アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

ブログ    

推薦する

Adobe、フォトショップで加工された人間の顔を自動検出できるAIツールを開発

偽の動画や画像の拡散に対する懸念は世界中で高まっており、Adobe もその懸念を共有していると述べて...

...

AIが人々の恋愛探しをどうサポートするか

過去10年間で、多数のカップルがオンラインで出会いました。出会い系アプリを使って恋人を見つけることは...

GPTストア立ち上げの裏側:民間開発者のグループが儲かり、スタートアップのグループが消滅

ノア著制作:51CTO テクノロジースタック(WeChat ID:blog)昨年末に一連の「宮廷闘争...

...

「無人運転」について、投資界の大物が4つの大きな予測を示した

編集者注: Chentao CapitalのエグゼクティブゼネラルマネージャーであるHe Xiong...

...

多くの企業が自社のサービスはAIだと主張しているが、実際はAIのふりをしている人間である。

[[235932]] 「疑似AI」の台頭:テクノロジー企業がボットの仕事を人間にひそかに任せる方法...

2018年世界大学AIランキングが発表、中国の大学が好成績!

この記事では、CSranking の計算に基づいて、コンピューターサイエンスの分野システムと学部の観...

...

アメリカの医師は新型コロナウイルスと戦うために人工知能をどのように活用しているのか

昨年、新型コロナウイルス感染症のパンデミックが始まったとき、クリーブランド・クリニックの医師で最高研...

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

産業用ロボットは幅広い用途でますます利用されるようになっているわが国は世界最大かつ最も活発な産業用ロ...

人工知能が再び大学入試に挑戦:AIはエッセイの書き手と比べて何点取れるのか?

今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...

マスク氏は人気検索に頻繁に登場、テスラは「過大評価されている」

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...