ロボットは「常識」を知っており、物事をはるかに速く見つけることができます。CMU は新しいセマンティックナビゲーションロボットを開発しました。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ロボットに人間のように考えさせることは、常に難しい問題であったようです。

たとえば、ロボットに「植物」の横に置かれたリモコンを拾うように指示すると、ロボットはほぼ即座に「植物」の鉢の位置を検出し、リモコンの存在を検出します。

このプロジェクトはECCV 2020に採択され、Living Target Navigation Challengeで1位を獲得しました。

実装プロセスを見てみましょう。

ロボットに常識を学ばせよう

実際、過去に機械学習を使用してトレーニングされたセマンティックナビゲーションロボットのほとんどは、物を見つけるのにあまり効果的ではありませんでした。

人間の潜在意識に形成された常識と比較すると、ロボットは少々「頑固」なところがあり、対象物の位置を記憶する傾向が強いです。

しかし、オブジェクトが配置されているシーンは多くの場合非常に複雑で、互いに大きく異なります (諺にあるように、誰の家もそれぞれに散らかっています)。システムを単純に多数の異なるシーンでトレーニングした場合、モデルの一般化能力はあまり良くありません。

そのため、より多くのサンプルでシステムをトレーニングする場合と比較して、研究者は今回は考え方を変えました。

このシステムは、半教師あり学習アプローチと、意味的好奇心と呼ばれる報酬メカニズムを使用してトレーニングされます。

トレーニングの中心的な目的は、システムが意味の「理解」に基づいてターゲットオブジェクトの最適な位置を決定できるようにすることです。言い換えれば、ロボットに「常識を学習」させることです。

例えば、冷蔵庫とバスルームの違いを理解することで、ロボットは対象物と部屋のレイアウトの関係を理解し、特定の物体が最も見つけやすい部屋を計算することができます。（ソファは通常、バスルームではなくリビングルームにあります）

物体の最も可能性の高い位置が決定されると、ロボットは予想される位置に直接移動し、対象物体の存在を素早く検出できます。このプロセスは、探索ポリシーと呼ばれます。

マスクRCNNトレーニング探索戦略の使用

下の図に示すように、戦略の実装は、学習、トレーニング、テストの 3 つのステップに分かれています。

まず、Mask RCNN を使用して、画像内のオブジェクトを上から下に向かって予測し、オブジェクトの検出とシーンのセグメンテーションに必要なトレーニングデータを生成する探索戦略をトレーニングします。

トレーニングデータがラベル付けされた後、オブジェクト検出とシーン分割のパフォーマンスを微調整および評価するために使用されます。

ターゲット検出時には、対象物に向いているカメラが 360 度回転しても、ロボットはそれを同じ対象物として認識する必要があります。

最も重要なステップの 1 つは、セマンティックマップを構築することです。

「魔法の」地図を構築する

下の図からわかるように、画像は RGB と深度の 2 つのモードで処理されます。

その中で、RGB 画像は Mask RCNN ネットワークを通過して、ターゲットのセグメンテーション予測を取得します。

Depth アーキテクチャは、Mask RCNN の予測結果に基づいて各ポイントにセマンティックラベルが関連付けられたポイントクラウドを計算するために使用されます。

最後に、幾何学的な計算に基づいて、空間内に 3 次元画像が生成されます。

各チャネルはオブジェクトカテゴリを表すために使用され、元の 2D マップは 3D セマンティックマップに変換されます。

セマンティックマップを使用すると、ロボットは移動しながら 3D 空間内のターゲットを正確に予測できます。

「意味的好奇心」報酬メカニズム

ただし、ターゲットオブジェクトが異なるフレームで異なる予測ラベルを持つ場合、セマンティックマップ内のこのオブジェクトに対応する複数のチャネルが 1 になる状況が発生します。

下の図に示すように、システムが予測するターゲットラベルは、その時々で異なる場合があります。ベッドになる場合もあれば、ソファになる場合もあります。

ここで意味的好奇心の戦略が登場します。

この論文では、累積的な意味的好奇心報酬を、意味マップ内のすべての要素の合計の比率として定義しています。

意味的好奇心報酬メカニズムは、強化学習を使用してこの比率を最大化します。

オブジェクト間の違い、つまり部屋のレイアウトを理解することで、システムは部屋とオブジェクトのつながりを徐々に理解するようになります。

実験結果

このアプローチは非常に効果的であることがわかりました。

トレーニング中、ロボットは経路を常に計画するのではなく、ターゲットオブジェクトと部屋のレイアウトの関係を理解することに集中できます。

訓練されたロボットは、人間とコンピュータの相互作用の観点から制御しやすくなります。

たとえば、さまざまな方法の中で、探索された領域は最後から 2 番目と最後から 3 番目の方法ほど良くないにもかかわらず、セマンティックキュリオシティは依然として同程度の数のオブジェクトを検出します。

つまり、ターゲット検出を実行するときに、検出する必要のあるオブジェクトにさらに焦点を合わせることができます。

下の図からわかるように、意味的好奇心は明らかに他の戦略では見つけられないオブジェクトを多く発見しており、これはターゲットの検出に非常に効果的です。

最終的なトレーニング結果では、意味的好奇心が 39.96 という最高スコアを達成しました。

この方法により、人間とロボット間の相互作用がより簡単に実現できるようになります。

著者について

Devendra Singh Chaplot 氏はカーネギーメロン大学 (CMU) の博士課程の学生で、深層強化学習とロボット工学および自然言語処理へのその応用を研究しています。

ポータル:

論文リンク: https://arxiv.org/pdf/2006.09367.pdf

プロジェクトリンク: https://devendrachaplot.github.io/projects/SemanticCuriosity

<<: エッジコンピューティングにおける AI の利点

>>: ニューラルネットワーク＋量子コンピュータ？中国の学者が初の量子コンピューティング共同設計フレームワークをオープンソース化

Google Cloud と Hugging Face が AI インフラストラクチャパートナーシップを締結

ブログ

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

ブログ

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

ブログ

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

ブログ

TensorFlow.js と Python を使用してブラウザで機械学習モデルを構築する

ブログ

AIモデリングはもはや困難ではない：Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

ブログ

スマートホームとは何ですか？そしてそれは必要ですか？

ブログ

プラグアンドプレイ、トレーニング不要：ケンブリッジ大学、テンセントAIラボなどがトレーニング不要のクロスモーダルテキスト生成フレームワークを提案

ブログ

ロボットは「常識」を知っており、物事をはるかに速く見つけることができます。CMU は新しいセマンティックナビゲーションロボットを開発しました。

ロボットに常識を学ばせよう

マスクRCNNトレーニング探索戦略の使用

「魔法の」地図を構築する

「意味的好奇心」報酬メカニズム

実験結果

著者について

Google Cloud と Hugging Face が AI インフラストラクチャパートナーシップを締結

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

NVIDIA H100の覇権に挑戦！ IBMは人間の脳をシミュレートしてニューラルネットワークチップを作成し、効率を14倍向上させ、AIモデルの電力消費問題を解決しました

TensorFlow.js と Python を使用してブラウザで機械学習モデルを構築する

AIモデリングはもはや困難ではない：Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

スマートホームとは何ですか？そしてそれは必要ですか？

プラグアンドプレイ、トレーニング不要：ケンブリッジ大学、テンセントAIラボなどがトレーニング不要のクロスモーダルテキスト生成フレームワークを提案

推薦する

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

ロボットが自閉症児の社会スキルの発達を助ける

ロボットが人間のライフラインを守る、6つの大きなトレンドが無限の可能性を浮き彫りにする

100日間人工知能について学んだ後、私は次の5つの結論に達しました

人工知能、ブロックチェーン技術などが医療分野を改善している

Microsoft の Zhu Chenguang: 事前トレーニング済みモデルの次のステップは何ですか? PLMの「不可能の三角形」を突破する

学ぶ価値のある Github 上の 7 つの AI プロジェクト

地下鉄乗車時の「顔認識」：AI専門家にとって新たな金鉱

ビジネスに適したRPAソフトウェアの選び方

人工知能と機械学習技術がビジネス開発を推進

テスラは大きな疑問に直面：オートパイロットは事故の1秒前に自動的に終了

データサイエンスと機械学習のための珍しいPythonライブラリ

人工知能における非構造化データの役割