マイクロソフトの新しい研究:ドローンは推論能力を獲得し、画像を見るだけで判断できるようになる

マイクロソフトの新しい研究:ドローンは推論能力を獲得し、画像を見るだけで判断できるようになる

[[319825]]

Leifeng.com 注: 画像は Microsoft の公式サイトより

一般的に、人間は障害物が見えたためにそれを避けることを選択するなど、知覚を通じて対応する決定を下します。

この「認識から行動へ」のロジックは、センサーやカメラの分野にも応用されてきましたが、現在のロボットの自律システムの中核となっています。しかし、現在の機械の自律性は、特に一人称視点 (FPV) の航空ナビゲーションなどのオープンワールドの認識および制御タスクを扱う場合、視覚データに基づく人間の意思決定のレベルには程遠いものです。

しかし、マイクロソフトが最近公開した新しい機械学習システムは、ドローンが画像を通じて正しい判断を下せるように支援するという、この分野に新たな希望をもたらしています。

マイクロソフトは、一人称視点(FPV)ドローンレースにヒントを得た。FPVドローンレースでは、オペレーターは単眼カメラを通じてドローンのルートを計画・制御できるため、危険の可能性が大幅に低減される。したがって、Microsoft は、このモデルを新しいシステムに適用して、視覚情報を直接アクションにマッピングし、正しい決定を実行できると考えています。

具体的には、新しいシステムは、知覚コンポーネント(見たものを理解する)と制御ポリシー(何をするか決定する)を明示的に分離し、研究者がディープニューラルモデルをデバッグしやすくします。シミュレーターに関しては、モデルがシミュレーションと実際の環境の微妙な違いを区別できなければならないため、Microsoft は「AirSim」と呼ばれる高忠実度のシミュレーターを使用してシステムをトレーニングし、その後、変更を加えずに実際のシナリオでドローンに直接システムを展開しました。

Leifeng.com 注: 上の写真はマイクロソフトがテストに使用したドローンです

また、シミュレーションと現実の違いを緊密に橋渡しし、合成データへの過剰適合を回避するために、「CM-VAE」と呼ばれるオートエンコーダフレームワークも使用しました。 CM-VAE フレームワークを通じて、知覚モジュールへの画像入力は、高次元シーケンスから低次元表現に圧縮されます。たとえば、2,000 を超える変数から 10 の変数に圧縮されます。圧縮されたピクセル サイズは 128 x 72 で、最も基本的な状態を記述するのに十分です。このシステムは画像のエンコードに 10 個の変数しか使用していませんが、デコードされた画像は、物体のサイズや位置、さまざまな背景情報など、「ドローンが見ているシーン」の豊富な説明をドローンに提供します。さらに、この次元圧縮技術は滑らかで連続的です。

このシステムの能力をよりよく実証するために、マイクロソフトは、前面カメラを搭載した小型で機敏なクアッドローター ドローンを使用してテストを実施し、RGB カメラからの画像に基づいてドローンを操縦できるようにしました。

研究者らは、8つの障害物ボックスと40メートルのO字型トラックで構成される45メートルのS字型トラックで、積載システムを搭載したドローンをテストした。実験では、CM-VAE 自動エンコーディング フレームワークのパフォーマンスが直接エンコーディングよりもはるかに優れていることが示されています。システムは、強い視覚的妨害が存在する場合でもタスクを正常に完了しました。

Leifeng.com 注: 上の写真はテストサイトの側面図と上面図を示しています

Microsoft は次のように主張しています。

シミュレーションによるトレーニング段階では、ドローンがこれまで「見たことのない」視覚条件でテストすることで、認識制御フレームワークを限界まで押し上げました。

シミュレーションを通じて訓練された後、このシステムは困難な現実世界の環境でも独立して「自己航行」できるため、捜索救助任務での展開に最適です。研究の参加者は、このシステムは現実世界での応用に大きな可能性を示していると述べている。自律型捜索救助ロボットは、年齢、体格、性別、人種、その他の要因の違いにかかわらず、人間をより適切に識別し、支援することができるようになるだろう。

<<:  1 つの記事で NLP 実装の難しさを理解する

>>:  シンプルな人工ニューラル ネットワークをゼロから構築する: 入力層 1 つと出力層 1 つ

ブログ    
ブログ    
ブログ    

推薦する

海外メディア:人工知能はすでに自身のミスを警告できる

[[354534]]海外メディアは、人工知能は急速に発展しており、この分野における最新の技術的成果が...

...

スマートホームにはスマートロボットが必要ですか?

スマートホームの人気が高まっていることは間違いありません。テクノロジーに精通した早期導入者から一般の...

産業用ロボットはセンサーなしでも動作できますか?

現在、人口ボーナスの減少、人件費の上昇、人材構成の矛盾などの問題が、製造業の発展を阻む困難になりつつ...

ついに誰かが様々なStyleGANの大きな概要を作成した

[[435127]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ちょうど今、OpenAIはマスク氏を反論する記事を公式に発表し、過去8年間の電子メールのやり取りのスクリーンショットを公開した。

最も注目されているテクノロジー企業OpenAIと世界一の富豪マスク氏との壮大な戦いは新たなレベルに達...

人工知能の基礎技術は成熟し、AIは今後10年間で私の見方を完全に変えた

人工知能の黄金の10年基礎技術は基本的に安定しており、拡大シナリオは流行の10年を迎えています。中国...

2024 年のビッグデータ業界予測 (パート 4)

生成 AI は、すぐに過大な期待のピークから幻滅の谷間へと移行するでしょう。控えめに言っても、現在、...

AIはスペインの流行において重要な役割を果たし、新規感染者の死亡率を半減させた。

[[361228]]スペインは、感染者数が170万人を超え、欧州で新型コロナウイルスのパンデミック...

機械学習の発展が吹き替え技術の向上にどのように役立つか

翻訳者 | 李睿校正 | 梁哲、孫淑娟人工知能 (AI) テクノロジーはここ数年で急速に発展し、ビジ...

人工知能は教育の新たな発展を促進し、これら3つの分野に大きな影響を与えます。

今年の流行語について聞かれたら、「人工知能」という言葉は誰もが知っていると思います。人工知能は多くの...

無人公共交通機関が議題に上がっており、自動運転はまだ改善の余地がある

10月21日、蘇州で5G無人バスの定期運行が開始された。蘇州高速鉄道新城でデビューしたこの無人バスは...

Google AI、眼球スキャンから心臓病リスクを予測可能

グーグルと、同じくアルファベットグループの健康関連子会社であるベリリー・ライフ・サイエンシズが共同で...

...

AIと5Gの相乗効果:デジタル時代の潜在能力を最大限に引き出す

進化するテクノロジーの世界では、人工知能 (AI) と第 5 世代無線ネットワーク (5G) という...