この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ロボットに人間のように考えさせることは、常に難しい問題であったようです。 たとえば、ロボットに「植物」の横に置かれたリモコンを拾うように指示すると、ロボットはほぼ即座に「植物」の鉢の位置を検出し、リモコンの存在を検出します。 このプロジェクトはECCV 2020に採択され、Living Target Navigation Challengeで1位を獲得しました。 実装プロセスを見てみましょう。 ロボットに常識を学ばせよう実際、過去に機械学習を使用してトレーニングされたセマンティックナビゲーションロボットのほとんどは、物を見つけるのにあまり効果的ではありませんでした。 人間の潜在意識に形成された常識と比較すると、ロボットは少々「頑固」なところがあり、対象物の位置を記憶する傾向が強いです。 しかし、オブジェクトが配置されているシーンは多くの場合非常に複雑で、互いに大きく異なります (諺にあるように、誰の家もそれぞれに散らかっています)。システムを単純に多数の異なるシーンでトレーニングした場合、モデルの一般化能力はあまり良くありません。 そのため、より多くのサンプルでシステムをトレーニングする場合と比較して、研究者は今回は考え方を変えました。 このシステムは、半教師あり学習アプローチと、意味的好奇心と呼ばれる報酬メカニズムを使用してトレーニングされます。 トレーニングの中心的な目的は、システムが意味の「理解」に基づいてターゲットオブジェクトの最適な位置を決定できるようにすることです。言い換えれば、ロボットに「常識を学習」させることです。
物体の最も可能性の高い位置が決定されると、ロボットは予想される位置に直接移動し、対象物体の存在を素早く検出できます。このプロセスは、探索ポリシーと呼ばれます。 マスクRCNNトレーニング探索戦略の使用下の図に示すように、戦略の実装は、学習、トレーニング、テストの 3 つのステップに分かれています。 まず、Mask RCNN を使用して、画像内のオブジェクトを上から下に向かって予測し、オブジェクトの検出とシーンのセグメンテーションに必要なトレーニング データを生成する探索戦略をトレーニングします。 トレーニング データがラベル付けされた後、オブジェクト検出とシーン分割のパフォーマンスを微調整および評価するために使用されます。 ターゲット検出時には、対象物に向いているカメラが 360 度回転しても、ロボットはそれを同じ対象物として認識する必要があります。 最も重要なステップの 1 つは、セマンティック マップを構築することです。 「魔法の」地図を構築する下の図からわかるように、画像は RGB と深度の 2 つのモードで処理されます。 その中で、RGB 画像は Mask RCNN ネットワークを通過して、ターゲットのセグメンテーション予測を取得します。 Depth アーキテクチャは、Mask RCNN の予測結果に基づいて各ポイントにセマンティック ラベルが関連付けられたポイント クラウドを計算するために使用されます。 最後に、幾何学的な計算に基づいて、空間内に 3 次元画像が生成されます。 各チャネルはオブジェクト カテゴリを表すために使用され、元の 2D マップは 3D セマンティック マップに変換されます。 セマンティック マップを使用すると、ロボットは移動しながら 3D 空間内のターゲットを正確に予測できます。 「意味的好奇心」報酬メカニズムただし、ターゲット オブジェクトが異なるフレームで異なる予測ラベルを持つ場合、セマンティック マップ内のこのオブジェクトに対応する複数のチャネルが 1 になる状況が発生します。 下の図に示すように、システムが予測するターゲットラベルは、その時々で異なる場合があります。ベッドになる場合もあれば、ソファになる場合もあります。 ここで意味的好奇心の戦略が登場します。 この論文では、累積的な意味的好奇心報酬を、意味マップ内のすべての要素の合計の比率として定義しています。 意味的好奇心報酬メカニズムは、強化学習を使用してこの比率を最大化します。 オブジェクト間の違い、つまり部屋のレイアウトを理解することで、システムは部屋とオブジェクトのつながりを徐々に理解するようになります。 実験結果このアプローチは非常に効果的であることがわかりました。 トレーニング中、ロボットは経路を常に計画するのではなく、ターゲット オブジェクトと部屋のレイアウトの関係を理解することに集中できます。 訓練されたロボットは、人間とコンピュータの相互作用の観点から制御しやすくなります。 たとえば、さまざまな方法の中で、探索された領域は最後から 2 番目と最後から 3 番目の方法ほど良くないにもかかわらず、セマンティック キュリオシティは依然として同程度の数のオブジェクトを検出します。 つまり、ターゲット検出を実行するときに、検出する必要のあるオブジェクトにさらに焦点を合わせることができます。 下の図からわかるように、意味的好奇心は明らかに他の戦略では見つけられないオブジェクトを多く発見しており、これはターゲットの検出に非常に効果的です。 最終的なトレーニング結果では、意味的好奇心が 39.96 という最高スコアを達成しました。 この方法により、人間とロボット間の相互作用がより簡単に実現できるようになります。 著者についてDevendra Singh Chaplot 氏はカーネギーメロン大学 (CMU) の博士課程の学生で、深層強化学習とロボット工学および自然言語処理へのその応用を研究しています。 ポータル: 論文リンク: https://arxiv.org/pdf/2006.09367.pdf プロジェクトリンク: https://devendrachaplot.github.io/projects/SemanticCuriosity |
>>: ニューラルネットワーク+量子コンピュータ?中国の学者が初の量子コンピューティング共同設計フレームワークをオープンソース化
デジタル化が進むにつれ、消費者は便利なインターネットサービスを体験できるようになり、携帯電話でタオバ...
社会的支援ロボットは、自閉症スペクトラム障害(ASD)の子供たちが適切な行動とコミュニケーションを促...
最近、梅雨の到来により、わが国の多くの都市が洪水期に突入し、南部のほとんどの都市が激しい暴風雨、洪水...
この記事の著者は Jamie Beach です。彼は 100 日間人工知能を独学した後、人工知能に関...
ヘルスケア業界の成長は驚異的ですが、欠点がないわけではありません。医師や研究者は、一般的な病気や珍し...
近年、大規模な事前トレーニング済み言語モデル (PLM) により、さまざまな NLP タスクのパフォ...
「Python を学ぶ大きな楽しみの 1 つは、人工知能を学ぶことです。Lao K が GitHub...
[[276754]]業界のすべての実務者が合意に達することはまれですが、AI業界は例外です。ほぼすべ...
[[407899]] [51CTO.com クイック翻訳]研究によると、企業の従業員がより生産的な仕...
IT リーダーはすでに人工知能と機械学習テクノロジーの恩恵を受けています。最近の調査によると、経済が...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[51CTO.com オリジナル記事] この記事では、現在市場にあるデータサイエンスや機械学習に適し...
人工知能 (AI) システムは人間に似た方法でやり取りするため、一部の人は不安に思うかもしれませんが...