模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指示することは大きな課題です。アリゾナ州立大学、インテル AI ラボ、オレゴン州立大学の研究チームは、操作タスクにおける模倣学習の柔軟な目標として言語を使用し、人間の専門家とロボット間のコミュニケーションの架け橋を提供しました。トレーニング中に、モデルは言語、視覚、運動制御間の相関関係を関連付けて捉えることを学習し、結果として言語に基づいた制御ポリシーが生成されます。これらのポリシーは、人間のユーザーが構造化されていないコマンドを発行するためのシンプルで直感的なインターフェースを提供します。

将来的には、非構造化自然言語を模倣学習に組み込むことで、自律型ロボットのプログラミングの必要性が減り、人間とロボットの自然なやり取りが可能になる可能性があります。この革新により、医療、小売、製造、食品などの業界で自動化ロボットの使用が新たなレベルに引き上げられる可能性があります。ロボットが特定の文構造、完璧な文法、またはドメイン固有の言語を持つ必要がなくなることで、小売倉庫から商品をピックアップして梱包したり、レストランでロボットアームに食事の準備を指示したりするなどの作業を人間がロボットに指示することが容易になります。医療分野では、人間が音声コマンドを使用して自律型車椅子を操作したり、薬局がロボットアームを使用して薬を梱包したりすることもできます。

1 模倣学習とコミュニケーションチャネル

研究チームは、アリゾナ州立大学のサイモン・ステプティス、ジョセフ・キャンベル、チッタ・バラル、ヘニ・ベン・アモール、オレゴン州立大学のステファン・リーの各研究者と共同で、2020年のNeurIPSカンファレンスの基調講演で論文「ロボット操作タスクのための言語条件付け模倣学習」を発表しました。

図のキャプション: 論文「ロボット操作タスクのための言語条件付け模倣学習」

論文リンク: https://arxiv.org/abs/2010.12083

模倣学習はロボットに新しいスキルを教える簡単な方法です。プログラミングが不要なので、機能的または確率的表現に変換できる一連のデモンストレーションを提供するだけで済みます。ただし、このアプローチの制限は、必要なすべての情報が利用可能であることを保証するために、状態表現を慎重に設計する必要があることです。ニューラル手法は、ロボットがタスク固有の特徴表現を学習できるようにすることで、模倣学習を高次元空間に拡張します。しかし、これらのアプローチには、ユーザーが追加コストをほとんどかけずに、目的のタスクに関する詳細情報を提供できる通信チャネルがありません。したがって、プログラマーもユーザーも目標を定義するために数値的な方法に頼らなければなりません。

これらの課題を克服するために、研究チームは、高レベルのセマンティック モジュールと低レベルのコントローラーで構成される操作タスクを処理するためのエンドツーエンドの言語制約付き制御戦略を開発し、言語、視覚、制御を単一のフレームワークに統合しました。

戦略の生成は、言語からビジョンへの翻訳プロセスとして考えることができます。エンドツーエンドのアプローチを使用する場合、アプローチは概念的にセマンティック モデルと制御モデルの 2 つの部分に分割されます。セマンティック モデルは、言語的および視覚的観点からタスクの独自の表現を作成します。制御モデルは、ロボットの現在の状態を考慮しながら、タスク表現をタスク固有の制御ポリシーに変換します。

2 件の評価: ピッキングとダンピングの作業

研究チームは、卓上でのシミュレーションによるロボットタスクでこの新しいアプローチを評価しました。このタスクでは、専門家が 7 自由度のロボット マニピュレーターに、一連のピッキング動作とダンピング動作を実行する方法を教えました。訓練中、専門家は「赤いボウルに少し注ぐ」などの言葉による説明とともに、作業の運動感覚的なデモンストレーションを提供しました。テーブル上には、さまざまな形、サイズ、色のオブジェクトが複数ある場合があり、自然言語による説明があいまいになることがよくあります。ロボットは、利用可能な生データ ソースから重要な情報を効果的に抽出し、何をどのように行うか、どこに移動するかを決定する方法を学習する必要があります。

1

図1: ダンピング作業を行うロボットアーム

トレーニングおよびテストデータを生成するために、5 人の専門家が同義語置換法を使用して 200 個の口頭タスク説明テンプレートを提供しました。模倣学習には大量のデモンストレーションが必要なので、研究チームはこの自動手法を使用して、タスク用に同じ文章のさまざまなバリエーションを作成することでデモンストレーションを生成しました。このモデルは、合成生成された 40,000 のシーンでトレーニングされています。

3 言語制限操作課題の結果

このモデルの全体的なタスクは、カップを持ち上げてから最初に正しいボウルに注ぐことができた回数の割合を表します。この一連の手順は、新しい環境の 84% で正常に実行されました。摘み取りのみの成功率は98%、ダンピングの成功率は85%でした。これらの結果は、モデルが訓練された動作を物体の位置、言語コマンド、または知覚入力の変化にうまく一般化することを示唆しています。チームの作業は、言語、視覚、制御をうまく統合するためのベンチマークを設定します。

チームは、生成されたロボット制御信号を補足するために補助損失を使用しました。オブジェクト検出の注意とポリシー生成の両方をガイドすると、ダンピング タスクのパフォーマンスが向上します。研究チームはまた、5人の新たな参加者にコマンドを発してもらい、それを合成言語と比較することでモデルを評価した。全体的に、モデルは新しい参加者からの新しい自然言語コマンドにうまく反応しました。

自然言語による指示は、将来、機械学習やロボット工学の新しい用途を切り開く可能性があるようです。​

<<:  MLOps 実装を成功させるためのベストプラクティス

>>:  PyCaret: 機械学習モデルの開発が簡単に

ブログ    
ブログ    

推薦する

...

精密人工知能:原子核物理学と素粒子物理学における新たな力

素粒子物理学の標準モデルは、既知のすべての素粒子と、宇宙を支配する 4 つの基本的な力のうち 3 つ...

人工知能プロジェクト: 注目すべき 7 つのポイント

最近、業界調査会社ガートナーは、AI プロジェクトの 85% は CIO に引き渡されないという大胆...

...

Microsoft、Spark 向けディープラーニング ライブラリ MMLSpark をオープンソース化

[[207730]] Microsoft は、Apache Spark 用のディープラーニング ライ...

スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

会話エージェントから検索クエリまで、自然言語理解 (NLP) は今日の最もエキサイティングなテクノロ...

CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、...

人工知能があなたの仕事を奪い、ビッグデータがあなたを「裸」にしてしまう。私たちの未来はどうなるのでしょうか?

失業率が急上昇、それはAIのせいか? !科学技術の発展に伴い、高コストで非効率的な手作業が人工知能に...

IoTとAIの融合:予知保全の新たなパラダイム

モノのインターネット (IoT) と人工知能 (AI) の融合により、予知保全における新たなパラダイ...

有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

[[263482]]老舗の文系大学が人工知能人材育成分野への参入を正式に発表した。 「中国人民大学...

MAEよりも強力なFAIRの新しいメソッドMaskFeatはHOGを使用して複数のSOTAを更新します

マスク・アンド・予測法は、コンピュータービジョンの分野における新しい流派となるかもしれません。自己教...

...

トップレベルの人工知能チームを構築するにはどうすればよいでしょうか?

市場には優れた AI ソフトウェア ツールが数多く存在しますが、プロジェクトを実装する際には強力なチ...

Verdict、2020年第1四半期のTwitterにおけるIoTトレンドトップ5を発表

私たちは、企業や専門家が IoT についてどう考えているかを知りたいと思っていますが、一般の人々はど...

...