模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指示することは大きな課題です。アリゾナ州立大学、インテル AI ラボ、オレゴン州立大学の研究チームは、操作タスクにおける模倣学習の柔軟な目標として言語を使用し、人間の専門家とロボット間のコミュニケーションの架け橋を提供しました。トレーニング中に、モデルは言語、視覚、運動制御間の相関関係を関連付けて捉えることを学習し、結果として言語に基づいた制御ポリシーが生成されます。これらのポリシーは、人間のユーザーが構造化されていないコマンドを発行するためのシンプルで直感的なインターフェースを提供します。

将来的には、非構造化自然言語を模倣学習に組み込むことで、自律型ロボットのプログラミングの必要性が減り、人間とロボットの自然なやり取りが可能になる可能性があります。この革新により、医療、小売、製造、食品などの業界で自動化ロボットの使用が新たなレベルに引き上げられる可能性があります。ロボットが特定の文構造、完璧な文法、またはドメイン固有の言語を持つ必要がなくなることで、小売倉庫から商品をピックアップして梱包したり、レストランでロボットアームに食事の準備を指示したりするなどの作業を人間がロボットに指示することが容易になります。医療分野では、人間が音声コマンドを使用して自律型車椅子を操作したり、薬局がロボットアームを使用して薬を梱包したりすることもできます。

1 模倣学習とコミュニケーションチャネル

研究チームは、アリゾナ州立大学のサイモン・ステプティス、ジョセフ・キャンベル、チッタ・バラル、ヘニ・ベン・アモール、オレゴン州立大学のステファン・リーの各研究者と共同で、2020年のNeurIPSカンファレンスの基調講演で論文「ロボット操作タスクのための言語条件付け模倣学習」を発表しました。

図のキャプション: 論文「ロボット操作タスクのための言語条件付け模倣学習」

論文リンク: https://arxiv.org/abs/2010.12083

模倣学習はロボットに新しいスキルを教える簡単な方法です。プログラミングが不要なので、機能的または確率的表現に変換できる一連のデモンストレーションを提供するだけで済みます。ただし、このアプローチの制限は、必要なすべての情報が利用可能であることを保証するために、状態表現を慎重に設計する必要があることです。ニューラル手法は、ロボットがタスク固有の特徴表現を学習できるようにすることで、模倣学習を高次元空間に拡張します。しかし、これらのアプローチには、ユーザーが追加コストをほとんどかけずに、目的のタスクに関する詳細情報を提供できる通信チャネルがありません。したがって、プログラマーもユーザーも目標を定義するために数値的な方法に頼らなければなりません。

これらの課題を克服するために、研究チームは、高レベルのセマンティックモジュールと低レベルのコントローラーで構成される操作タスクを処理するためのエンドツーエンドの言語制約付き制御戦略を開発し、言語、視覚、制御を単一のフレームワークに統合しました。

戦略の生成は、言語からビジョンへの翻訳プロセスとして考えることができます。エンドツーエンドのアプローチを使用する場合、アプローチは概念的にセマンティックモデルと制御モデルの 2 つの部分に分割されます。セマンティックモデルは、言語的および視覚的観点からタスクの独自の表現を作成します。制御モデルは、ロボットの現在の状態を考慮しながら、タスク表現をタスク固有の制御ポリシーに変換します。

2 件の評価: ピッキングとダンピングの作業

研究チームは、卓上でのシミュレーションによるロボットタスクでこの新しいアプローチを評価しました。このタスクでは、専門家が 7 自由度のロボットマニピュレーターに、一連のピッキング動作とダンピング動作を実行する方法を教えました。訓練中、専門家は「赤いボウルに少し注ぐ」などの言葉による説明とともに、作業の運動感覚的なデモンストレーションを提供しました。テーブル上には、さまざまな形、サイズ、色のオブジェクトが複数ある場合があり、自然言語による説明があいまいになることがよくあります。ロボットは、利用可能な生データソースから重要な情報を効果的に抽出し、何をどのように行うか、どこに移動するかを決定する方法を学習する必要があります。

図1: ダンピング作業を行うロボットアーム

トレーニングおよびテストデータを生成するために、5 人の専門家が同義語置換法を使用して 200 個の口頭タスク説明テンプレートを提供しました。模倣学習には大量のデモンストレーションが必要なので、研究チームはこの自動手法を使用して、タスク用に同じ文章のさまざまなバリエーションを作成することでデモンストレーションを生成しました。このモデルは、合成生成された 40,000 のシーンでトレーニングされています。

3 言語制限操作課題の結果

このモデルの全体的なタスクは、カップを持ち上げてから最初に正しいボウルに注ぐことができた回数の割合を表します。この一連の手順は、新しい環境の 84% で正常に実行されました。摘み取りのみの成功率は98％、ダンピングの成功率は85％でした。これらの結果は、モデルが訓練された動作を物体の位置、言語コマンド、または知覚入力の変化にうまく一般化することを示唆しています。チームの作業は、言語、視覚、制御をうまく統合するためのベンチマークを設定します。

チームは、生成されたロボット制御信号を補足するために補助損失を使用しました。オブジェクト検出の注意とポリシー生成の両方をガイドすると、ダンピングタスクのパフォーマンスが向上します。研究チームはまた、5人の新たな参加者にコマンドを発してもらい、それを合成言語と比較することでモデルを評価した。全体的に、モデルは新しい参加者からの新しい自然言語コマンドにうまく反応しました。

自然言語による指示は、将来、機械学習やロボット工学の新しい用途を切り開く可能性があるようです。

<<: MLOps 実装を成功させるためのベストプラクティス

>>: PyCaret: 機械学習モデルの開発が簡単に