NYU の具現化知能における新たな進歩: 視覚的なフィードバックで缶を開ける方法を学習し、タスクの成功率が 135% 向上、LeCun 氏はそれを好意的に評価

NYU の具現化知能における新たな進歩: 視覚的なフィードバックで缶を開ける方法を学習し、タスクの成功率が 135% 向上、LeCun 氏はそれを好意的に評価

ロボットがペンチで簡単にワイヤーを切る様子をご覧ください。

あっという間に鉄の箱の蓋が開きました。

さらに、物体を掴むなどの作業も簡単に完了できます。

このロボットの背後には、ニューヨーク大学とメタ AI 研究所が立ち上げた最新の具現化された知能の成果があります。

研究者らは、視覚と触覚を組み合わせてロボットのタスク遂行効率を2倍以上に高めるTAVIと呼ばれる新しいトレーニング方法を提案した。

現在、研究チームの論文は公開されており、関連コードはオープンソース化されています。

このロボットの性能を見て、Meta 社の主任科学者 LeCun 氏は、これは驚くべき進歩だと思わずにいられませんでした。

では、この方法を使用して訓練されたロボットは他に何ができるのでしょうか?

取り出しやすく、出し入れも簡単

重ねられた2つのボウルを分離し、上のボウルを取り出すことができます。

注意深く観察すると、分離プロセス中にロボットの手が追跡動作を行い、黄色のボウルが緑色のボウルの内壁に沿って滑ることがわかります。

このロボットは「分割」だけでなく「結合」もできます。

ロボットは赤い物体を拾い上げ、それを紫色の蓋の中に正確に置きました。

または、消しゴムを裏返します。

大きな消しゴムを拾い、下のボックスを使って角度を調整するのが見えました。

なぜもっと指を使わなかったのかはわかりませんが、結局は道具の使い方を学びました。

つまり、TAVI 方式で訓練された具現化された知能ロボットは、人間と多少似た動きをすることになります。

統計的には、TAVI 方式は、6 つの典型的なタスクにおいて触覚または視覚フィードバックのみを使用する方式よりも大幅に優れています。

触覚情報のないAVI方式と比較すると、TAVIの平均成功率は135%増加し、画像+触覚報酬モデル方式と比較すると2倍になりました。

視覚と触覚の混合モードを使用する T-DEX トレーニング方法の成功率は、TAVI の 4 分の 1 未満です。

TAVI によって訓練されたロボットは強力な一般化能力も備えており、これまで見たことのない物体に対するタスクを完了することができます。

「ボウルを拾う」と「箱に詰める」という2つのタスクにおいて、ロボットが未知の物体に直面した際の成功率は半分以上でした。

さらに、TAVI方式で訓練されたロボットは、さまざまなタスクを優れた方法で完了できるだけでなく、複数のサブタスクを連続して実行することもできます。

堅牢性の面では、研究チームはカメラの角度を調整してテストを実施しましたが、ロボットは依然として高い成功率を維持しました。

では、TAVI法はどのようにしてこの効果を達成するのでしょうか?

視覚情報を用いたロボットの性能評価

TAVIの核となるのは、視覚的なフィードバックを利用してロボットを訓練することであり、その作業は主に3つのステップに分かれています。

最初のステップは、視覚と触覚という 2 つの次元から人間が提供するデモンストレーション情報を収集することです。

収集された視覚情報は、その後の学習プロセスで使用するための報酬関数を構築するために使用されます。

このプロセス中、システムは比較学習を使用して、タスクを完了するのに役立つ視覚的特徴を取得し、ロボットのアクションの完了を評価します。

その後、ロボットは強化学習を通じてトレーニングされ、触覚情報と視覚フィードバックを組み合わせて、高い完了スコアを達成するまで繰り返し試行できるようになります。

TAVI の学習は段階的なプロセスです。学習ステップが増えるにつれて、報酬関数はより完璧になり、ロボットの動きはより正確になります。

TAVIの柔軟性を向上させるために、研究チームは残余戦略も導入しました。

基本戦略と異なる点に遭遇した場合、最初からやり直す必要はなく、異なる部分だけを学習すれば済みます。

アブレーション実験の結果は、残余戦略がなく、ロボットが毎回ゼロから学習しなければならない場合、タスクを完了する成功率が低下することを示しています。

具現化された知能に興味があるなら、研究チームの論文を読んで詳細を知ることができます。

論文アドレス: https://arxiv.org/abs/2309.12300GitHub。

プロジェクトページ: https://github.com/irmakguzey/see-to-touch.

<<:  このロボットはバッテリーなしで「自走」でき、バッテリー寿命は無制限です | ワシントン大学

>>:  Amazon が企業による生成 AI の利用を支援する新機能と Bedrock を発表

ブログ    

推薦する

Microsoft が Meta との AI および PyTorch の連携を強化

Microsoft は、Meta との AI パートナーシップをさらに拡大し、Meta が AI ...

遺伝的アルゴリズムに基づく高周波タグアンテナの最適設計

無線周波数識別技術は、無線、非接触の自動識別技術であり、近年開発された最先端の技術プロジェクトです。...

人工知能技術はビッグデータに基づいていますか?

[[201662]]今や、AI やロボットが徐々に人間の仕事に取って代わる時代になりました。知らな...

高度な数学に希望があります!ニューラルネットワークは1秒未満で偏微分方程式を解く

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

MATRIX: 社会シミュレーションは、GPT4よりも配慮した大規模なモデル値の自己整合を促進します

ChatGPT などのモデルは、人間のフィードバックからの強化学習 (RLHF) に依存しており、注...

視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活...

不動産業界における人工知能のメリットトップ10

人工知能 (AI) は不動産業界に革命をもたらし、データ分析の強化から顧客体験の向上まで、さまざまな...

シンプルで使いやすいPythonの顔認識アルゴリズムをいくつかまとめます

こんにちは、みんな。今日は、シンプルで使いやすい顔認識アルゴリズムをいくつかまとめます。顔認識はコン...

科学者たちは一連のAI映画評価ツールを開発しました。撮影が始まる前に評価を与えることができます。

海外メディアの報道によると、映画の評価は大きな問題である。すべての映画の予告編の最後にそれらを見るこ...

署名アルゴリズムに基づくシンプルで安全なAPI認証メカニズム

[[384489]]広告システムに取り組んでいたとき、接続されたプラットフォーム上のほとんどの広告シ...

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?機械学習の目的は誰もが...

2020 Forrester Wave レポート: Dynatrace が AI を活用した IT 運用 (AIOps) のリーダーに選出

「Forrester Wave™: IT 運用のための人工知能、2020 年第 4 四半期」レポート...

ボストン・ダイナミクスのロボット犬がチャットできるようになりました! ChatGPTは機知に富んだ会話をサポートします

すごいですね、ボストン・ダイナミクスのロボット犬が直接話せるようになりました。そして、Siriの「人...

...

農業における人工知能の応用

農業は人類の生存の基盤であり、第三次産業の中核的位置を占め、経済社会の安定と発展に極めて重要な産業で...