近年、大規模な実世界データを使用した視覚事前トレーニングは大きな進歩を遂げており、ピクセル観察に基づくロボット学習において大きな可能性を示しています。しかし、これらの研究は、事前トレーニングデータ、方法、モデルの点で異なります。したがって、どのような種類のデータ、事前トレーニング方法、モデルがロボットの操作をより効果的に支援できるかは、未解決の問題のままです。 これに基づいて、ByteDance Researchチームの研究者は、事前トレーニングデータセット、モデルアーキテクチャ、トレーニング方法という3つの基本的な観点から、視覚的な事前トレーニング戦略がロボット操作タスクに与える影響を包括的に研究し、ロボットの学習に有益ないくつかの重要な実験結果を提供しました。さらに、彼らは、自己教師あり学習と教師あり学習を組み合わせた、Vi-PRoMと呼ばれるロボット操作のための視覚事前トレーニング方式を提案しました。前者は大規模なラベルなしデータから潜在パターンを抽出するために対照学習を採用し、後者は視覚的意味論と時間的ダイナミクスを学習することを目的としています。さまざまなシミュレーション環境と実際のロボットで実行された多数のロボット操作実験により、提案された方式の優位性が実証されました。
ベンチマーク調査事前トレーニングデータ EgoNet は ImageNet よりも強力です。対照学習法を使用して、さまざまなデータセット (ImageNet や EgoNet) でビジュアル エンコーダーを事前トレーニングし、ロボット操作タスクでのパフォーマンスを観察します。下の表 1 からわかるように、EgoNet で事前トレーニングされたモデルは、ロボット操作タスクでより優れたパフォーマンスを実現します。明らかに、ロボットは操作タスクに関して、ビデオに含まれるインタラクティブな知識と時間的関係を好みます。さらに、EgoNet の自己中心的な自然画像には、世界についてのよりグローバルなコンテキストが含まれているため、より豊富な視覚的特徴を学習できます。 モデル構造 ResNet-50 のパフォーマンスは優れています。下の表 2 から、ロボット操作タスクでは ResNet-50 と ResNet-101 が ResNet-34 よりも優れたパフォーマンスを発揮していることがわかります。さらに、モデル サイズが ResNet-50 から ResNet-101 に増加してもパフォーマンスは向上しませんでした。 事前トレーニング方法 対照学習は、推奨される事前トレーニング方法です。下の表 3 に示すように、MoCo-v3 は ImageNet と EgoNet の両方のデータセットで MAE よりも優れており、マスク画像モデリングと比較して対照学習の方が効果的であることが証明されています。さらに、対照学習を通じて得られる視覚的意味論は、マスク画像モデリングを通じて学習された構造情報よりもロボット操作にとって重要です。 アルゴリズムの紹介上記の調査に基づいて、本研究では、ロボット操作の包括的な視覚表現を抽出するために、EgoNet データセットで ResNet-50 を事前トレーニングする、ロボット操作のための視覚事前トレーニング スキーム (Vi-PRoM) を提案します。具体的には、まず対照学習を採用し、EgoNet データセットから自己教師あり方式で人間と物体の相互作用パターンを取得しました。次に、エンコーダーの表現をさらに充実させるために、視覚的意味予測と時間的ダイナミクス予測という 2 つの追加学習目標が提案されています。下の図は、提案された Vi-PRoM の基本的なフローを示しています。注目すべきことに、この研究では、視覚的な意味と時間的ダイナミクスを学習するためにラベルを手動で注釈付けする必要はありません。 実験結果この研究では、Franka Kitchen と MetaWorld という 2 つのシミュレーション環境で広範な実験を実施します。実験結果は、提案された事前トレーニング方式がロボット操作におけるこれまでの最先端の方法よりも優れていることを示しています。アブレーション実験の結果は次の表に示されており、ロボット操作における視覚的意味学習と時間的動的学習の重要性を証明しています。さらに、両方の学習目標がない場合、Vi-PRoM の成功率は大幅に低下し、視覚的意味学習と時間的ダイナミクス学習の連携の有効性が実証されます。 この研究では、Vi-PRoM のスケーラビリティについても研究しています。下の左の図に示すように、Franka Kitchen および MetaWorld シミュレーション環境では、デモ データのサイズが増加するにつれて、Vi-PRoM の成功率が着実に増加しています。専門家のデモンストレーションの大規模なデータセットでトレーニングした後、Vi-PRoM モデルはロボット操作タスクでのスケーラビリティを示します。 Vi-PRoM の強力な視覚表現機能のおかげで、実際のロボットは引き出しやキャビネットのドアをうまく開けることができます。 Franka Kitchen での実験結果によると、Vi-PRoM は 5 つのタスクすべてにおいて R3M よりも成功率とアクション完了率が高いことがわかりました。 R3M: Vi-PRoM: MetaWorld では、Vi-PRoM の視覚表現は優れた意味的および動的特徴を学習するため、アクション予測により効果的に使用でき、Vi-PRoM は R3M と比較して操作を完了するために必要な手順が少なくなります。 R3M: Vi-PRoM: |
[51CTO.comからのオリジナル記事] 2020年8月8日土曜日、Huawei Shanghai...
IDG Capital の投資家は、神経科学の専門家や最先端技術の起業家とともに、エネルギーと専門...
IT Homeは1月15日、Google Researchが最近、独自のBIG-Benchベンチマ...
海外メディアの報道によると、デザインソフトウェアプロバイダーのAdobeは最近、インドの生成AIスタ...
新たな調査によると、従業員の15%がChatGPTに会社のデータを頻繁にアップロードしており、そのデ...
推薦システムは早くから誕生していたが、本格的に注目されるようになったのは、「Facebook」に代表...
人工知能が私たちの生活にどのような影響を与えているかを示す例は無数にあります。これを「ロボットが悪の...
ミシュランの星付き料理を作るときと同じように、整理整頓されたキッチンを持つことは重要ですが、選択肢が...
[[209722]]ディープラーニングは本質的には深層人工ニューラルネットワークです。これは孤立した...
[[359773]] AI テクノロジーを導入している多くの組織は、成功を収めるどころか、テクノロジ...
検索について言えば、学術的な検索も科学です。検索を上手に使いこなすと、必要な学術情報を素早く見つける...
ガートナーは、2022年の銀行および投資サービス業界における3つの注目の技術トレンドとして、生成型人...
トップ10のアルゴリズムを発明したアルゴリズムの巨匠たち1. 1946年のモンテカルロ法[1946年...