このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

このプロジェクトはオープンソース化されています。Microsoft Research は転移学習を使用して、実用化に向けて自律型ドローンをトレーニングします。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

知覚と行動の回路は私たちの日常活動の中心にあります。私たちの脳は、無意識のうちに感覚入力を利用して特定の運動動作をリアルタイムでトリガーし、継続的な活動を形成します。運動やテレビ鑑賞などのさまざまな活動は、このようにして形成されます。

人工知能の文脈では、知覚と行動のループは自動運転車などの自律システムの基礎となります。強化学習などの分野はこの分野である程度の進歩を遂げていますが、自律システムは視覚データに基づいて直接意思決定を行うという点では現時点では人間に大きく遅れをとっています。

最近、マイクロソフトの人工知能研究者は、シミュレートされた環境で認識と行動のポリシーを学習し、その知識をドローンに適用するための転移学習法を提案する論文を発表しました。

感覚入力に基づいてどのような行動を取るかは、理論的な問題というよりも実践的な問題です。近年、強化学習や模倣学習などの手法はこの分野で大きな可能性を示していますが、大量のラベル付き実世界データを収集することが難しいという制限が依然として残っています。一方、シミュレートされたデータは生成が簡単ですが、さまざまな現実のシナリオでは安全でない動作を示すことがよくあります。

シミュレートされた環境でポリシーを学習し、その知識を実際の環境に外挿できることは、自律システムにとって依然として大きな課題の 1 つです。この分野の研究を進めるために、AI コミュニティは現実世界の自律システムに関する多くのベンチマークを確立してきました。これらの中で最も難しいのは一人称視点のドローンレースです。

FPVチャレンジ

一人称視点(FPV)で行われる競技では、プロのパイロットは安全性を考慮せずに、優れた機敏性でクワッドコプターを計画し、制御することができます。 Microsoft Research チームは、FPV レースでドローンを制御できる自律エージェントの構築を試みました。

ディープラーニングの観点から見ると、ナビゲーション タスクにおける最大の課題の 1 つは、入力画像データの高次元性と変動性です。このタスクをうまく解決するには、視覚的な外観に対して不変であり、シミュレーションと現実の違いに対して堅牢な表現が必要です。この観点から、FPV レースなどの環境で動作できる自律エージェントは、実際の環境で使用できるポリシーを学習するシミュレートされたデータを使用してトレーニングされる必要があります。

FPV コンテストなどの研究の多くは、ドローンの周囲のモデルの構築に役立つさまざまなセンサーの強化に重点を置いています。しかし、マイクロソフトの研究チームは、人間の脳の機能にヒントを得て、視覚情報を正しい制御アクションに直接マッピングする計算構造を作成することを目指しました。

これを実証するために、Microsoft Research は前面カメラを備えた非常に基本的なクアッドコプターを使用しました。すべての処理は、6 つの CPU コアと統合 GPU を備えた Nvidia TX2 コンピューターで実行されました。市販の Intel T265 追跡カメラは走行距離測定機能を提供し、画像処理には Tensorflow フレームワークを使用します。画像センサーは水平視野 830 の USB カメラで、生画像は 128 x 72 の寸法に縮小されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

演技

Microsoft Research チームは、シミュレートされた環境で自律エージェントをトレーニングし、学習したポリシーを実際の FPV レースに適用することを目指しています。シミュレーション データについては、Microsoft はドローン、自動車、その他の車両用の高忠実度シミュレーターである AirSim に依存しています。 AirSim によって生成されたデータはトレーニング フェーズで使用され、学習されたポリシーは変更なしで実際の環境に展開されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

シミュレートされた現実のギャップを埋めるために、Microsoft の研究では、ラベル付きおよびラベルなしのシミュレートされたデータと現実世界のデータセットを使用するクロスモーダル学習に依存しています。アイデアは、高次元のシミュレートされたデータでトレーニングし、現実のシナリオで効果的に使用できる低次元のポリシー表現を学習することです。この目標を達成するために、Microsoft Research は、各データ モダリティに対して 1 つのエンコーダーとデコーダーのペアを使用しながら、すべての入力と出力を単一の潜在空間に圧縮する、クロスモーダル変分オートエンコーダー (CM-VAE) フレームワークを活用しました。このアプローチにより、ラベル付きデータ モダリティとラベルなしデータ モダリティの両方を潜在変数のトレーニング プロセスに組み込むことができます。

このテクノロジーを FPV 環境に適用するには、異なるデータ モデルが必要です。最初のデータ モダリティでは、未加工のラベルなしセンサー入力 (FPV 画像) を考慮しますが、2 番目のデータ モダリティでは、現在のタスクに直接関連する状態情報を考慮します。ドローンレースの場合、2 番目のモダリティは、ドローンの座標フレームで定義された次のゲートの相対的なポーズに対応します。各データ モダリティは、CM-VAE フレームワークを使用してエンコーダーとデコーダーのペアによって処理され、低次元ポリシーの学習が可能になります。

自律型 FPV レーシング エージェントのアーキテクチャは、主に 2 つのステップで構成されます。最初のステップでは潜在的な状態表現を学習することに重点を置き、2 番目のステップではこの潜在的な表現を操作するための制御ポリシーを学習することを目的としています。最初のコンポーネントまたは制御システム アーキテクチャは、単眼カメラ画像を入力として受け取り、次の可視ドアの相対的なポーズと背景の特徴を低次元の潜在表現にエンコードします。この潜在表現は制御ネットワークに送られ、速度コマンドを出力します。その後、速度コマンドはドローンのフライト コントローラーによってアクチュエータ コマンドに変換されます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

次元削減は、Microsoft Research のアプローチの重要な部分です。 FPV 競技では、効果的な次元削減技術は、シミュレートされた画像と実際の画像の視覚情報の違いに対して滑らかで、連続的で、一貫性があり、堅牢である必要があります。これを実現するために、アーキテクチャでは CM-VAE アプローチが採用されており、各データ サンプルは独立した潜在空間にエンコードされ、画像にデコードしたり、ドローンに対するドアの姿勢など、別の形式のデータに変換したりできます。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

結果として得られるアーキテクチャは、27,468 個の変数に基づく高次元表現を最小 10 個の変数に削減できます。わずか 10 個の変数を使用して画像をエンコードしたにもかかわらず、デコードされた画像には、考えられるすべてのドアのサイズと位置、さまざまな背景情報など、ドローンが見ることができる前方の物体に関する豊富な説明が含まれています。

画像ソース: https://www.microsoft.com/en-us/research/blog/training-deep-control-policies-for-the-real-world/

Microsoft Research は、視覚的に極めて困難な環境を含むさまざまな FPV 競技環境で自律型ドローンをテストしました。たとえば、ドアと同じ色合いの赤い縞模様が床に描かれている部屋や、雪が降っている環境などです。

自律型ドローンが低次元画像表現を使用してすべての課題を達成する方法を紹介する関連ビデオもあります。ご興味がございましたら、このビデオをご覧ください: https://youtu.be/AxE7qGKJWaw 。

Microsoft の研究作業は特に FPV レース シナリオを対象としていますが、その原理は他の多くの認識される動きのシナリオにも適用できます。このような技術は、シミュレートされた環境でトレーニングできる自律エージェントの開発を加速するのに役立つ可能性があります。この研究を促進するために、Microsoft は FPV エージェントのコードを GitHub でオープンソース化しました。

GitHub プロジェクト URL: https://github.com/microsoft/AirSim-Drone-Racing-VAE-Imitation

出典: https://towardsdatascience.com/microsoft-research-uses-transfer-learning-to-train-real-world-autonomous-drones-53b3f941768f

<<:  ハルビン工業大学は、象の鼻と同じくらい柔軟な人工筋肉を備えた柔軟なロボットを開発しました。

>>:  一目でわかるアルゴリズム「選択ソート」

推薦する

2022年の人工知能産業の10大発展トレンド

電子ファンネットワークが報じた(文/李婉婉)近年、技術の継続的な進歩に伴い、人工知能産業は急速に発展...

教師あり学習に匹敵する、より優れた一般化性能を備えた自己教師あり学習深度推定アルゴリズム

[[428260]]屋内環境での自己教師付き深度推定は、屋外環境でのそれよりも常に困難でした。OPP...

機械学習ガバナンスとは何ですか?

なぜ組織は機械学習のガバナンスに苦労するのでしょうか? 組織の機械学習ガバナンスに取り組もうとすると...

AIによる朗読がオーディオブック市場に影響、声優の仕事が脅かされる

テクノロジーの進歩により、人工知能 (AI) が徐々に出版業界に参入し始めており、特にオーディオブッ...

深い思考:テイクアウトの背後にある人工知能アルゴリズムの秘密

知識の蓄積は規模の拡大をもたらし、規模の拡大は市場の集中につながります。産業が「組立ライン」の形で固...

AI分野に新たな学者が加わりました!清華大学の胡世民が選出され、「Jitu」フレームワークは彼の研究室から生まれた

清華大学の胡世民教授が中国科学院の院士に選出されました! 2023年に両アカデミーから新たに選出され...

ビッグデータと AI を現代の教育とどのように組み合わせることができるでしょうか?

転載は歓迎しますが、署名し、「劉鵬の未来を見つめる」公開アカウントからの転載であることを明記し、この...

百度の自動運転タクシーが長沙で運行開始!乗客は百度地図を通じて電話をかけ、無料の試乗を受けることができる。

4月20日の最新ニュースは、百度がApollp Robotaxi自動運転タクシーサービスの全面オー...

ネイチャーが中国のAIの現状を分析。2030年に世界をリードできるか?

ネイチャー誌の最近の分析記事では、中国の人工知能研究は質の面で急速な進歩を遂げているが、影響力の大き...

...

AI人材の世界的な需要が急増、一部の職種では年間40万ドル近くを稼ぐ

6月19日のニュース:AI産業の急速な発展に伴い、テクノロジー業界のAI人材に対する需要も高まってい...

米軍のAIブラックテクノロジー:暗闇でも正確に顔を認識できる。これに不安を感じる人はいるだろうか?

[[227002]]今日お話しするのは、「そんな手術があるの?」と第一印象でとても驚く内容ですが、...

有名な文系大学が人工知能の分野に参入すると、何をもたらすことができるのでしょうか?

[[263482]]老舗の文系大学が人工知能人材育成分野への参入を正式に発表した。 「中国人民大学...

中学校の知識を使って機械学習が何をしているのかを理解する方法

[[333000]]序文Baidu 百科事典で「機械学習」を検索すると、私が決して到達できないレベル...

...