ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

ドローンレースが人間のトッププレイヤーを上回り、強化学習が再びネイチャーの表紙を飾る

最近、自律型ドローンがドローン競技会で人間のトッププレイヤーに勝利しました。

この自律型ドローンは、チューリッヒ大学の研究チームによって設計・開発されたSwiftシステムです。研究結果は、ネイチャー誌の最新号の表紙に掲載されています。

研究内容: https://www.nature.com/articles/s41586-023-06419-4

このドローンレースでは、人間のオペレーターがドローンに搭載されたカメラを使用して 3D トラック上でドローンを操縦し、オペレーターはドローンの視点から周囲の環境を観察することができます。自律型ドローンが人間が操縦するドローンのレベルを達成するのは非常に困難です。ドローンは搭載センサーのみを使用して速度と軌道上の位置を推定する必要があるためです。

スウィフトは、2019年ドローンレーシングリーグ世界チャンピオンのアレックス・ヴァノーバー、マルチGPインターナショナルオープンで2度優勝したトーマス・ビットマッタ、スイスナショナルチャンピオンで3度優勝したマーヴィン・シェッパーといった世界チャンピオンの人間プレイヤーを破りました。

下の図 1a はこの競技のコースです。スウィフトは人間のチャンピオンとの競争に勝利しただけでなく、最速のレース記録も樹立しました。この研究は、移動ロボットと機械知能の分野における画期的な成果です。

図1

次に、自律型ドローン Swift の技術的アプローチについて見ていきます。

Swift テクノロジーの紹介

Swift は、搭載センサーと計算のみを使用して自らを制御するクアッドローターです。2 つの主要モジュールで構成されています。

  1. 知覚システムは、高次元の視覚情報と慣性情報を低次元の表現に変換します。
  2. 制御戦略は、知覚システムによって生成された低次元表現を取り込み、制御コマンドを生成します。

制御ポリシーはフィードフォワード ニューラル ネットワークによって表現され、モデルフリーのポリシーオン深層強化学習 (RL) を使用してトレーニングされます。

シミュレーションと現実世界では感知と動力学に違いがあるため、シミュレーションのみで戦略を最適化すると、ドローンの現実世界でのパフォーマンスが低下します。そのため、研究チームは物理システムから収集したデータを使用して、ノンパラメトリックな経験的ノイズモデルを推定しました。実験により、これらの経験的ノイズ モデルが、制御戦略をシミュレーションから現実にうまく移行するのに役立つことが示されています。

具体的には、Swift は搭載センサーからの読み取り値を制御コマンドにマッピングします。このマッピングは、(1) 高次元の視覚情報と慣性情報をタスク固有の低次元エンコーディングに精製する観測戦略と、(2) エンコーディングをドローン コマンドに変換する制御戦略の 2 つの部分で構成されます。 Swift システムの全体概要を以下の図 2 に示します。

図2

図 1 に示すシナリオでは、Swift の観測戦略で視覚慣性推定器とドア検出器を実行する必要があります。ゲート検出器は、空中画像内のレースゲートを検出し、検出されたゲートを使用してトラック上のドローンのグローバル位置と飛行方向を推定する畳み込みニューラル ネットワークです。これは、カメラ再断面アルゴリズムとトラックのマップを組み合わせて行われます。最後に、Swift は、カルマン フィルターを使用して、グローバル姿勢推定値 (ドア検出器から取得) と視覚慣性推定値を組み合わせて、ロボットの状態をより正確に特徴付けます。

制御戦略 (2 層パーセプトロンで表現) は、カルマン フィルターの出力をドローン制御コマンドにマッピングする役割を担います。制御ポリシーは、モデルフリーのオンポリシー深層強化学習 (RL) を使用してシミュレーションでトレーニングされます。トレーニング中、ポリシーはカメラの視野内にある次のレーシングゲートに関する情報を考慮し、報酬を最大化して姿勢推定の精度を向上させます。

実験と結果

Swift のパフォーマンスを評価するために、この研究では一連のレース実験を実施し、軌道計画とモデル予測制御 (MPC) と比較しました。

下の図 3b に示すように、Swift は A. Vanover に対して 9 試合中 5 試合に勝ち、T. Bitmatta に対して 7 試合中 4 試合に勝ち、M. Schaepper に対して 9 試合中 6 試合に勝ちました。スウィフトが記録した10回の敗北のうち、40%は対戦相手との衝突によるもの、40%は競技ゲートとの衝突によるもの、そして20%は人間が操縦するドローンよりも遅かったことによるものだった。全体として、スウィフトは人間が操縦するドローンとのレースで最も多くの勝利を収め、また、人間が操縦するドローン (A. ヴァノーバー) のベストタイムを 0.5 秒上回る最速タイムも記録しました。

図3

Swift のパフォーマンスをより詳細に分析するために、この研究では Swift と人間が操縦するドローンの最速の 1 周飛行速度を比較しました。結果は、以下の図 4 と表 1 に示されています。

図4

表1

Swift は全体的には人間が操縦するすべてのドローンよりも高速でしたが、表 1 に示すように、トラックのすべてのセグメントで高速だったわけではありません。

研究チームは注意深く分析し、離陸時のスウィフトの反応時間は人間のパイロットよりも短く、平均120ミリ秒早く離陸していること、またスウィフトはより速く加速し、より速い速度で最初の競技ゲートに進入していることを発見した。図 4cd に示すように、急旋回するとき、Swift の動きはよりコンパクトになります。

研究チームはまた、Swift は人間のオペレーターよりも長い時間スケールで軌道を最適化するという仮説を提唱しました。ご存知のとおり、モデルフリー RL は価値関数を通じて長期的な報酬を最適化できます。対照的に、人間のオペレーターはより短い時間スケールで動きを計画し、せいぜい将来のレースゲート 1 つ分しか予測できません。

<<: 

>>:  OpenAI の公式チュートリアル: GPT-4 で議事録生成 AI を作成する方法

ブログ    
ブログ    

推薦する

わかった!ニッチだけど役に立つAIテクニック6選

ソフトウェアの熟練度は「ツール」の範疇に入るため、主にポートフォリオで対外的に証明するデザイナーにと...

アジャイルプロジェクト管理における人工知能の 9 つのメリット

人工知能は、特にソフトウェア開発の効率性の向上において、ソフトウェア開発を改善・加速し、プロジェクト...

...

人工知能、モノのインターネット、新エネルギーなどへの投資ガイド。

12月21日、百度と華為は包括的な戦略提携を発表した。両者は中国市場とユーザーエクスペリエンスに重...

2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

[[253124]] 2018 年は AI 分野にとって依然として刺激的な年です。今年はNLP研究...

AIに関する哲学的考察 - 認知不変性とAI

米国国防高等研究計画局(DARPA)はかつて、第3波AIの概念を提唱しました。その議論では、第3波A...

Java で実装されたいくつかの一般的なソートアルゴリズムの詳細な解釈

ソートアルゴリズムはさまざまな場所で使用されています。最近、そのアルゴリズムを読み直し、自分で簡単に...

PHP再帰アルゴリズムの詳細な例分析

ウェブサイトを構築する場合、プログラマーの最初の選択肢は PHP 言語です。 PHP については十分...

一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

ChatGPT に回答を出す前に手順について考えてもらうことで、精度を向上させることができます。では...

AI を活用した新たなフィッシング攻撃に対抗するにはどうすればよいでしょうか?

サイバーセキュリティは、攻撃と防御の継続的なゲームです。防御戦略が進化し続ける一方で、攻撃者も攻撃の...

新しい研究では、AIを使用してトラウマ性解離を引き起こす脳領域を探索する

[[344125]]解離や解離性障害は、特に幼少期に極度のトラウマや慢性的な虐待を経験した人々によっ...

データセットと DataLoader を使用して PyTorch でデータをカスタマイズする

大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあり...

指紋認証は本当に安全ですか?答えはそうではないかもしれない

科学技術の継続的な発展に伴い、ますます多くのブラックテクノロジーが私たちの生活に浸透し始めており、そ...

マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てくだ...