ロボット工学の分野にディープラーニングを取り入れる新たな試みはありますか？

ディープラーニングが人気を集めている今、誰もが自分の研究分野でそれを活用できないか考えています。そのため、ロボット工学の分野にディープラーニングを統合する試みが行われています。私がよく知っている2つの側面（ビジョンと計画）について簡単に紹介します。

物体認識

実はこれが一番考えやすい方向性です。DLが普及したのは画像認識の成果によるものです。

ここでは、元の CNN ネットワークを直接使用できます。具体的な作業については説明しません。以前、Amazon Picking Challenge (APC) 2016 で別の質問に答えました。認識と動作計画の主流のアルゴリズムは何ですか?後述するように、2016 年の Amazon Crawl Competition では、多くのチームがオブジェクト認識アルゴリズムとして DL を使用しました。

オブジェクトの配置

もちろん、マシンビジョンとコンピュータービジョンにはわずかな違いがあります。ロボット分野における視覚には、物体認識に加えて、物体の位置決め（物体を操作するためには、物体の位置や姿勢を知る必要がある）も含まれます。

2016 年の APC では、多くの人がオブジェクト認識に DL を採用しましたが、オブジェクトの配置には依然として比較的単純なアルゴリズムや従来のアルゴリズムが使用されていました。 DL は広く採用されていないようです。

もちろん、誰もこれに取り組んでいないわけではありません。私たちの研究室の張博士もこれを試しています。ここで、張博士が以前研究した論文の内容を簡単に紹介したいと思います。

Doumanoglou、Andreas、他「6D オブジェクトのポーズを復元し、群衆の中で次に良いビューを予測する」IEEE コンピュータービジョンおよびパターン認識会議の議事録。2016 年。

作業は大まかに次のようになります。オブジェクトに対して、RGB-D データの小さな断片を多数取得します。各断片には座標 (オブジェクトの座標系を基準とする) があります。次に、最初にオートエンコーダーを使用してデータの次元を削減します。次に、削減された次元機能を使用して Hough Forest をトレーニングします。

このように、実際の物体を検出する際に、物体の表面の RGB-D データをサンプリングし、姿勢を推定することができます。

把持姿勢生成

これは以前別の質問で紹介されました (従来の RCNN は画像内のオブジェクトの位置を大まかに特定できますが、画像内の位置を物理世界の位置に変換するにはどうすればよいでしょうか)。

↑ ジオメトリを使用して 3D ポイントクラウドの把持姿勢を検出する

↑ 密集した乱雑な場所でも高精度に把握姿勢を検出

管理/計画

これが今私が興味を持っている分野です。

簡単に言えば、強化学習は移動ロボットの経路計画に使用できることがわかります。したがって、理論的には、DL の関数近似とポリシー勾配を組み合わせて制御や計画を行うことが可能です。もちろん、現在の作品は元々の伝統的な手法に取って代わるにはまだまだ遠いですが、非常に興味深い試みでもあります。

ここにいくつかの研究があります。詳細については論文を参照してください。

1.雑然とした自然環境における単眼反応型UAV制御の学習

↑ CMU のドローンが森の中を飛行

2. 知覚から決定へ: 自律地上ロボットのエンドツーエンドの動作計画に対するデータ駆動型アプローチ

↑ ETH屋内ナビゲーション

3. ディープラーニングと大規模データ収集によるロボット把持のための手と目の協調学習

↑ DeepMind 物体把握

4. 深部視覚運動ポリシーのエンドツーエンドトレーニング

↑ バークレーのボトルキャップの取り外しとその他の作業

困難は何ですか

1. 視野においては、物体認識に加え、物体の位置決めも必要となる。これは回帰問題ですが、現時点では回帰の精度をそのままオブジェクト操作に利用することはできません（データ量が足りないか、適切なネットワーク構造がまだ見つかっていない可能性があります）。そのため、一般的には、マッチング反復の最後のステップで ICP などのアルゴリズムを使用する必要があります。

2. ロボットの計画・制御などの面でさらに問題が発生する可能性があります。 Leifeng.com の「ハードクリエーション公開授業」（モーションプランニング | ビデオ版）のライブ放送中に遭遇した問題のいくつかについて言及しましたが、簡単に以下にリストします。

観測可能性の問題

簡単に言えば、DL 理論に取り組んでいない私たちは、DL の収束性と一般化の能力は十分であると想定しています。私たちが気にかけるべきなのは、DL にどのようなデータを供給するかということです。つまり、DL 機能が十分に強力であるという前提の下で、どのようなデータによって解決すべき問題を実質的なものにできるのでしょうか。

もちろん、現在の研究のいずれもこの点については触れていません。バークレーの論文は、データ（現在の画像、ロボットの関節の状態）が与えられれば、状態は観察可能であるという強い仮定を直接立てました。

実際のロボット動作においては、システムの状態が環境（物体の特性など）に関係する場合もあるため、この問題は今後ロボットにDLを適用する際には避けられない課題となるはずです。

データ量

一方で、問題を収束させるにはどれだけのデータが必要なのかはわかりません。一方、実際のロボット操作には時間がかかり、破損や実験条件の破壊（手動による復旧が必要）などがあり、データ収集は画像認識や音声認識に比べてはるかに困難です。

それは解決可能でしょうか?

生放送中に例を挙げましたが、黒い障害物の位置が左から右に連続的に変化すると、計画アルゴリズムが出力する最短経路が突然変化します。（動画を見るとわかりやすいかもしれません）

これは、ネットワーク入力は連続的に変化しますが、出力は特定の瞬間に突然変化する DL に対応します。さらに、最短経路には複数の解が存在する可能性があります。

DL の関数近似はこの状況をうまく処理できるでしょうか?

そうですね、こういうことを考えるのはとても面白いですね、一緒に楽しみましょう〜

<<: 普通のプログラマーがAIを活用する方法

>>: 人工知能と医師が出会ったら何が起こるかを伝える7つの短編物語