Leifeng.com 注: 画像は Microsoft の公式サイトより 一般的に、人間は障害物が見えたためにそれを避けることを選択するなど、知覚を通じて対応する決定を下します。 この「認識から行動へ」のロジックは、センサーやカメラの分野にも応用されてきましたが、現在のロボットの自律システムの中核となっています。しかし、現在の機械の自律性は、特に一人称視点 (FPV) の航空ナビゲーションなどのオープンワールドの認識および制御タスクを扱う場合、視覚データに基づく人間の意思決定のレベルには程遠いものです。 しかし、マイクロソフトが最近公開した新しい機械学習システムは、ドローンが画像を通じて正しい判断を下せるように支援するという、この分野に新たな希望をもたらしています。 マイクロソフトは、一人称視点(FPV)ドローンレースにヒントを得た。FPVドローンレースでは、オペレーターは単眼カメラを通じてドローンのルートを計画・制御できるため、危険の可能性が大幅に低減される。したがって、Microsoft は、このモデルを新しいシステムに適用して、視覚情報を直接アクションにマッピングし、正しい決定を実行できると考えています。 具体的には、新しいシステムは、知覚コンポーネント(見たものを理解する)と制御ポリシー(何をするか決定する)を明示的に分離し、研究者がディープニューラルモデルをデバッグしやすくします。シミュレーターに関しては、モデルがシミュレーションと実際の環境の微妙な違いを区別できなければならないため、Microsoft は「AirSim」と呼ばれる高忠実度のシミュレーターを使用してシステムをトレーニングし、その後、変更を加えずに実際のシナリオでドローンに直接システムを展開しました。 Leifeng.com 注: 上の写真はマイクロソフトがテストに使用したドローンです また、シミュレーションと現実の違いを緊密に橋渡しし、合成データへの過剰適合を回避するために、「CM-VAE」と呼ばれるオートエンコーダフレームワークも使用しました。 CM-VAE フレームワークを通じて、知覚モジュールへの画像入力は、高次元シーケンスから低次元表現に圧縮されます。たとえば、2,000 を超える変数から 10 の変数に圧縮されます。圧縮されたピクセル サイズは 128 x 72 で、最も基本的な状態を記述するのに十分です。このシステムは画像のエンコードに 10 個の変数しか使用していませんが、デコードされた画像は、物体のサイズや位置、さまざまな背景情報など、「ドローンが見ているシーン」の豊富な説明をドローンに提供します。さらに、この次元圧縮技術は滑らかで連続的です。 このシステムの能力をよりよく実証するために、マイクロソフトは、前面カメラを搭載した小型で機敏なクアッドローター ドローンを使用してテストを実施し、RGB カメラからの画像に基づいてドローンを操縦できるようにしました。 研究者らは、8つの障害物ボックスと40メートルのO字型トラックで構成される45メートルのS字型トラックで、積載システムを搭載したドローンをテストした。実験では、CM-VAE 自動エンコーディング フレームワークのパフォーマンスが直接エンコーディングよりもはるかに優れていることが示されています。システムは、強い視覚的妨害が存在する場合でもタスクを正常に完了しました。 Leifeng.com 注: 上の写真はテストサイトの側面図と上面図を示しています Microsoft は次のように主張しています。
シミュレーションを通じて訓練された後、このシステムは困難な現実世界の環境でも独立して「自己航行」できるため、捜索救助任務での展開に最適です。研究の参加者は、このシステムは現実世界での応用に大きな可能性を示していると述べている。自律型捜索救助ロボットは、年齢、体格、性別、人種、その他の要因の違いにかかわらず、人間をより適切に識別し、支援することができるようになるだろう。 |
>>: シンプルな人工ニューラル ネットワークをゼロから構築する: 入力層 1 つと出力層 1 つ
最近、アリババ・タオバオ・テクノロジーと上海交通大学画像通信・ネットワーク工学研究所(IGI)による...
通信ネットワークは人工知能の爆発的な発展の基盤であり、人工知能は通信ネットワークの機能を大幅に強化し...
[[361228]]スペインは、感染者数が170万人を超え、欧州で新型コロナウイルスのパンデミック...
チャットボットが大きなトレンドであることは間違いありません。ますます多くの大手ブランドが、アプリのタ...
AI におけるブレークスルーには、一般的に 3 つの種類があります。学術ランキングで上位を占め、学...
オンライン学習によって引き起こされる壊滅的な忘却問題を解決するために、北京大学などの研究機関は、勾配...
リカレント ニューラル ネットワーク (RNN) は、ネットワークに追加の重みを追加してネットワーク...
[51CTO.comより引用] 今年3月中旬、JD.comとIntelが共同主催するJDataアル...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[201428]]アトランティック誌は今週、アルファベット傘下の自動運転企業ウェイモの謎を解明す...
[[277303]] [51CTO.com クイック翻訳] 開発者は人気のある仕事の 1 つであり、...
幻覚だよ、古い友人よ。 LLM が私たちの視野に入って以来、錯覚の問題は常に無数の開発者を悩ませてき...