ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

ByteDanceは、ロボットの成功率と操作効果を高めたVi-PRoMビジュアル事前トレーニングソリューションを提案した。

近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づくロボット学習において大きな可能性を示しています。しかし、これらの研究は、事前トレーニングデータ、方法、モデルの点で異なります。したがって、どのような種類のデータ、事前トレーニング方法、モデルがロボットの操作をより効果的に支援できるかは、未解決の問題のままです。

これに基づいて、ByteDance Researchチームの研究者は、事前トレーニングデータセット、モデルアーキテクチャ、トレーニング方法という3つの基本的な観点から、視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボットの学習に有益ないくつかの重要な実験結果を提供しました。さらに、彼らは、自己教師あり学習と教師あり学習を組み合わせた、Vi-PRoMと呼ばれるロボット操作のための視覚事前トレーニング方式を提案しました。前者は大規模なラベルなしデータから潜在パターンを抽出するために対照学習を採用し、後者は視覚的意味論と時間的ダイナミクスを学習することを目的としています。さまざまなシミュレーション環境と実際のロボットで実行された多数のロボット操作実験により、提案された方式の優位性が実証されました。

  • 論文アドレス: https://arxiv.org/pdf/2308.03620.pdf
  • プロジェクトアドレス: https://explore-pretrain-robot.github.io/

ベンチマーク調査

事前トレーニングデータ

EgoNet は ImageNet よりも強力です。対照学習法を使用して、さまざまなデータセット (ImageNet や EgoNet) でビジュアル エンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクでより優れたパフォーマンスを実現します。明らかに、ロボットは操作タスクに関して、ビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には、世界についてのよりグローバルなコンテキストが含まれているため、より豊富な視覚的特徴を学習できます。

モデル構造

ResNet-50 のパフォーマンスは優れています。下の表 2 から、ロボット操作タスクでは ResNet-50 と ResNet-101 が ResNet-34 よりも優れたパフォーマンスを発揮していることがわかります。さらに、モデル サイズが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しませんでした。

事前トレーニング方法

対照学習は、推奨される事前トレーニング方法です。下の表 3 に示すように、MoCo-v3 は ImageNet と EgoNet の両方のデータセットで MAE よりも優れており、マスク画像モデリングと比較して対照学習の方が効果的であることが証明されています。さらに、対照学習を通じて得られる視覚的意味論は、マスク画像モデリングを通じて学習された構造情報よりもロボット操作にとって重要です。

アルゴリズムの紹介

上記の調査に基づいて、本研究では、ロボット操作の包括的な視覚表現を抽出するために、EgoNet データセットで ResNet-50 を事前トレーニングする、ロボット操作のための視覚事前トレーニング スキーム (Vi-PRoM) を提案します。具体的には、まず対照学習を採用し、EgoNet データセットから自己教師あり方式で人間と物体の相互作用パターンを取得しました。次に、エンコーダーの表現をさらに充実させるために、視覚的意味予測と時間的ダイナミクス予測という 2 つの追加学習目標が提案されています。下の図は、提案された Vi-PRoM の基本的なフローを示しています。注目すべきことに、この研究では、視覚的な意味と時間的ダイナミクスを学習するためにラベルを手動で注釈付けする必要はありません。

実験結果

この研究では、Franka Kitchen と MetaWorld という 2 つのシミュレーション環境で広範な実験を実施します。実験結果は、提案された事前トレーニング方式がロボット操作におけるこれまでの最先端の方法よりも優れていることを示しています。アブレーション実験の結果は次の表に示されており、ロボット操作における視覚的意味学習と時間的動的学習の重要性を証明しています。さらに、両方の学習目標がない場合、Vi-PRoM の成功率は大幅に低下し、視覚的意味学習と時間的ダイナミクス学習の連携の有効性が実証されます。

この研究では、Vi-PRoM のスケーラビリティについても研究しています。下の左の図に示すように、Franka Kitchen および MetaWorld シミュレーション環境では、デモ データのサイズが増加するにつれて、Vi-PRoM の成功率が着実に増加しています。専門家のデモンストレーションの大規模なデータセットでトレーニングした後、Vi-PRoM モデルはロボット操作タスクでのスケーラビリティを示します。


Vi-PRoM の強力な視覚表現機能のおかげで、実際のロボットは引き出しやキャビネットのドアをうまく​​開けることができます。

Franka Kitchen での実験結果によると、Vi-PRoM は 5 つのタスクすべてにおいて R3M よりも成功率とアクション完了率が高いことがわかりました。

R3M:


Vi-PRoM:

MetaWorld では、Vi-PRoM の視覚表現は優れた意味的および動的特徴を学習するため、アクション予測により効果的に使用でき、Vi-PRoM は R3M と比較して操作を完了するために必要な手順が少なくなります。

R3M:

Vi-PRoM:

<<: 

>>: 

ブログ    
ブログ    

推薦する

2022 年のエンタープライズ向け人工知能のトップ 10 トレンド

人工知能は主流になりました。さまざまな業界の企業が概念実証を成功させ、AI を本番環境に導入すること...

...

BERTに続き、この新しいモデルは11のNLPベンチマークで再び記録を更新しました。

BERT が 11 個の NLP 記録を破って以来、幅広いタスクに適用できる NLP 事前トレーニ...

...

包括的なデータサイエンスC/C++機械学習ライブラリコレクション、Baidu検索は不要

はじめにと動機 - なぜ C++ なのか? C++ は、動的負荷分散、適応型キャッシュ、大規模なデー...

機械学習について学びたい方はこちらをご覧ください。1ステップで専門家になる方法をお教えします!

パターン認識や機械学習のファンであれば、機械学習では避けられない重要な問題であるサポートベクターマシ...

人工知能教師向けの類似質問の作成

類似の質問とは何ですか? また、なぜ類似の質問を書く必要があるのですか?類似質問はロボット教育を改善...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...

...

配達員に代わるドローン配達は、人々に「嫌われるのではなく愛される」ようになる

現在、人々の生活や仕事のペースはますます加速し、インターネット電子商取引プラットフォームは急速に発展...

...

...

...

あらゆるビジネスオペレーションに AI を効果的に適用する 10 の方法

企業は、業務に AI を実装するさまざまな方法を分析し、理解する必要があります。 人工知能(AI)は...

マイクロソフト、2023年までに8つの人工知能プロジェクトをオープンソース化へ

著者 | ツァミア・アンサリ企画 | ヤン・ジェンマイクロソフトは、ソフトウェア大手の元CEO、ステ...