人間の世界チャンピオン3人を破り、ネイチャー誌の表紙に登場！ AIドローンエクストリームレースが自動運転の新時代を切り開く

チェスや事務作業、ゲームなどの知的活動において人間が AI に圧倒されていることはもはやニュースではなくなりました。

今ではエクストリームレースの分野でも、人間は地位を失っています！

今日のネイチャーの表紙記事は、ドローンレースで人間のSOTAに勝ったAI運転システムに関するものです。

写真

論文アドレス: https://www.nature.com/articles/s41586-023-06419-4

チューリッヒ大学とインテルの研究チームが開発した Swift システムは、一人称視点 (FPV) ドローンレースで 3 人の人間の世界チャンピオンに勝利し、1 周の速度が人間より 0.5 秒速いという成果を上げました。

AIドローンの内蔵OSは「遥かに先進的！」

この競技では、ドライバーは高速ドローンを操縦して3つのコースを完走する必要がある。

3次元空間内の3次元レーストラック。人間のパイロットも AI も、搭載カメラで撮影したビデオストリームを通じてのみ環境を観察し、ドローンの飛行を制御することができます。

写真

2019年、当時最高の性能を誇ったアルファパイロットシステムは、外部追跡システムに頼らずにドローンの飛行軌道を正確に制御し、人間のほぼ2倍の時間で競技を完了しました。

Swift システムは、人間のアスリートと同様に、搭載カメラで収集されたデータにのみリアルタイムで反応し、完走時間の質的な飛躍を実現します。

内蔵の慣性測定ユニットがドローンの加速度と速度を測定し、ニューラルネットワークがカメラからのデータを使用して空中でのドローンの位置を特定し、通過する必要のある滑走路のゲートを検出します。

この情報は、深層強化学習 (DeepRL) に基づく制御ユニットに集約され、トラックをできるだけ早く完了するための最適なフィードバック指示が作成されます。

写真

クアッドコプターは FPV ドローンレースで使用され、市場で最も機敏なドローンです。競技中にドローンが受ける加速力は自身の重力の5倍以上になり、飛行速度は時速100キロメートルを超えることもあります。

写真

トラックは7つの正方形のゲートで構成され、会場サイズは30×30×7の立体空間で、飛行距離は75メートルを超えます。ドローンは各ゲートを順番に通過し、3 周連続してレースを完了する必要があります。

写真

人間の運転手はヘッドセットを装着してリアルタイムのビデオフィードを受け取ります。ヘッドセットは、没入感のある「一人称視点」の体験を提供します。

人間の世界チャンピオンを上回る Swift システムは、主に 2 つの主要モジュールで構成されています。

1. 高次元の視覚情報と加速度情報を低次元の表現に変換する知覚システム

2. 低次元表現を取得し制御コマンドを生成する制御AIシステム

この制御 AI システムは、フィードフォワードニューラルネットワークで表現され、モデルフリーのオンポリシー深層強化学習を使用してシミュレーショントレーニングを行い、ラップのパフォーマンスを継続的に向上させます。

写真

研究者らは、物理世界から収集されたデータから推定された非パラメトリックな経験的ノイズモデルを使用することで、シミュレーションと物理世界における知覚とダイナミクスのギャップを狭めました。

これらのノイズモデルは、シミュレーションの制御戦略を現実の制御命令に効果的に変換できます。

人間の競技者は1週間トラックで練習し、1週間のトレーニングを終えた後、各パイロットはスウィフトと1対1の直接対戦を複数回行いました。

写真

スウィフトの勝利は、AI制御の自律制御システムが人間との競争に勝利した初めての事例となる。

スイフトシステム

ロボット工学の分野における主な課題の 1 つは、仮想世界と現実世界の間のギャップです。従来のエンドツーエンドの学習方法では、仮想環境のマッピングを現実世界に転送することが困難です。

Swift は、ドローンが人間のように FPV ドローンイベントで競争し、競争力のある結果を達成できるようにするエンドツーエンドの自律制御システムです。

そのシステムは主に次の 2 つのモジュールで構成されています。

1. 知覚システム

認識システムは、カメラ画像と慣性測定装置 (IMU) から取得した高周波測定値からドローンの状態のメトリック推定値を計算する VIO モジュールで構成されています。

VIO とドアの検出結果は、カルマンフィルタリングを通じてドローンのステータスに統合されます。制御ポリシーネットワークは、状態と以前のアクションを入力として受け取り、制御コマンドを出力します。

このシステムは、ドローンのカメラや慣性センサーからの複雑な高次元情報を、ドローンの現在の状態を表す低次元表現に変換できます。

軌道上のドローンの位置、速度、姿勢などが含まれており、視覚慣性システムとニューラルネットワークを使用して画像処理と状態推定を行います。

2. 制御戦略

各タイムステップで、ポリシーネットワークは状態と以前のアクションに基づいて出力します。

Swift の価値ネットワークはこのアクションの価値を評価し、その後、強化学習を通じて両方のネットワークのパラメータが最適化されます。

この戦略は、単純な 2 層の全接続ニューラルネットワークによって表されます。入力は、認識システムによって出力されるドローンの現在の状態であり、出力はドローンに与えられた制御コマンド (推力と体積速度) です。シミュレーション環境で強化学習を使用してトレーニングされます。

さらに、スウィフトの領域を越えた知覚と行動を現実世界に転送するために、研究者はダイナミクスと知覚の偏差を処理する 2 つの残差モデルを使用しました。

知覚残差モデル: ガウス過程を使用して、実際の飛行における慣性システムの誤差を適合させ、それをシミュレーションに追加します。

ダイナミクス残差モデル: 実際の飛行ダイナミクスの誤差は、k 最近傍回帰を使用して近似され、シミュレーションに組み込まれます。

このようにして、Swift は現実世界の不確実性に適応し、シミュレーションから物理システムへの効率的な移行を実現します。

トレーニング後は、プロのプレイヤーのようにFPV競技でドローンを飛ばすことができ、いくつかのシナリオでは人間のチャンピオンのパフォーマンスを上回ることさえあります。

写真

図a: Swiftが実際にセンサーからデータを取得し、制御コマンドを生成するプロセス

図b: シミュレーション環境で強化学習を使用して制御戦略をトレーニングするプロセス

結果

研究者らはタイムトライアルでスイフトのパフォーマンスを人間のパイロットと比較した。

ラップタイムは、最速の単一ラップタイムと、連続する 3 ヒートラップで達成された最速の平均タイムを表します。下の図 a に示すように、Swift は平均ラップタイムが速いだけでなく、平均 3 ラップタイムもより安定しています。

直接対決の結果は、下の図 b に示されています。A.Vanover との 9 試合のうち、Swift が 5 勝、T.Bitmatta との 7 試合のうち、Swift が 4 勝、M.Schaepper との 9 試合のうち、Swift が 6 勝しました。

研究者らは、スイフトが負けた10回のレースのうち、40％は対戦相手との衝突、40％はゲートとの衝突、そして20％はドローンが人間のパイロットよりも遅かったことが原因であると説明した。

全体的に、スイフトは人間のパイロットとのレースで最も多くの勝利を収めました。スウィフトは、人間のパイロット（A. ヴァノーバー）のベストタイムを0.5秒上回る、最速のレースタイムも達成しました。

写真

研究者たちは、スイフトと各人間のパイロットが飛行した最速ラップタイムを分析した。

全体的には、スイフトはすべての人間のパイロットよりも速かったが、コースのどのセクションでも速かったわけではない。

スタートの際、スイフトは人間のパイロットよりも反応時間が短く、平均120ミリ秒早く表彰台から離陸した。そして、さらに加速し、最初のゲートにさらに高速で進入します。

下の図 c と d に示すように、Swift の操縦は急旋回時の方がコンパクトです。

研究者たちは、この結果はスウィフトが軌道を選択するのに時間がかかったためだと推測している。

価値関数に基づいて長期的な報酬を最適化できるため、人間のパイロットはせいぜい 1 つの未来しか予測できないのに対し、計画の時間スケールは短くなります。

下の図 b と d に見られるように、人間のパイロットは操縦の開始時と終了時には速くなりますが、全体的には遅くなります。

同時に、人間と比較すると、Swift は特定の操作を実行する際に、慣性データや周囲の特徴の視覚的オドメトリなどの他の手がかりに頼ることもできます。

これにより、自律型ドローンは最高の平均速度と最短のレースラインを達成し、レース全体を通じて機体を運転限界に近づけることができました。

写真

話し合う

研究者らが開発した自律制御システムは、FPVドローンレースでチャンピオンシップレベルのパフォーマンスを達成することができ、場合によっては人間の世界チャンピオンを上回ることさえある。

このシステムには、人間のプレイヤーに比べて特定の構造上の利点があります。

まず、搭載された慣性計測装置 (IMU) からの慣性データを利用します。これは人間の前庭系に似ていますが、人間のアスリートは飛行機の中にいないため、飛行機の加速を直接感じることができないため、このシステムを使用することはできません。

第二に、Swift システムは感覚運動遅延が低い (Swift の場合は 40 ミリ秒であるのに対し、プロの人間プレーヤーの場合は平均 220 ミリ秒)。一方、スイフトが使用するカメラのリフレッシュレートは、人間のパイロットが使用する 4 倍の速さ (120 Hz) と比べて制限されており、反応時間が向上します。

人間のパイロットは驚くほど順応性が高い。ドローンが全速力で墜落した後でも、ハードウェアがまだ正常に機能していれば、飛行を続行してコースを完了することができる。ただし、Swift にはクラッシュから回復する機能がありません。

写真

人間のパイロットは、コースの外観を大きく変える可能性のある照明の変化など、変化する環境条件にも適応できます。

Swift の認識システムは、プレイ環境の外観がトレーニング中に観察したものとまったく同じであると想定します。環境が変化すると、システムが動作しなくなる可能性があります。

しかし、ゲート検出器と残差観測モデルを様々な条件下でトレーニングすることで、演奏環境の変化に適応することが可能となります。

研究者らが開発したシステムにはまだいくつかの限界があり、取り組むべき課題もあるが、自律移動ロボットがスポーツの世界チャンピオンと同等の性能を発揮できるという事実は、ロボット工学とAIの分野における重要なマイルストーンである。

この研究は、他の物理システム（自律走行車、航空機、ロボットなど）へのハイブリッド学習ベースのソリューションの展開に刺激を与え、より幅広い応用分野でより大きな役割を果たすようになる可能性があります。

方法

トレーニングアルゴリズム

トレーニングは、近似ポリシー最適化 (PPO) メソッドを使用して実行されます。このアクター-クリティックアプローチでは、トレーニング中に 2 つのニューラルネットワーク (ポリシーネットワーク (観察結果をアクションにマッピングする) とバリューネットワーク (ポリシーによって実行されるアクションを評価する「クリティック」として機能する)) を同時に最適化する必要があります。

トレーニング後、ポリシーネットワークのみがドローンに展開されます。

観察し、行動し、報酬を与える

時刻tにおける環境から得られた観測値𝐨𝑡∈ℝ31には以下が含まれる。

（１）現在のロボットの状態の推定

（２）通過する必要があるトラック上の次のゲートの相対的な姿勢

（３）前のステップで適用されたアクション。具体的には、ロボットの状態の推定にはプラットフォームの位置、速度、姿勢が含まれ、姿勢は回転行列で表され、R15のベクトルを形成します。

シミュレーションでは内部的に四元数を使用しますが、研究者は曖昧さを避けるために回転行列を使用してポーズを表します。

次に、車両に対するドアの4つの角の位置を提供することでドアの相対的な姿勢がエンコードされ、結果としてℝ12のベクトルが生成されます。

すべての観測値はネットワークに渡される前に正規化されます。値ネットワークはトレーニング時にのみ使用されるため、ポリシーネットワークではアクセスできない環境に関する特権情報にアクセスできます。

この特権情報は、ポリシーネットワークへの他の入力と連結され、ロボットの正確な位置、方向、速度が含まれます。

トレーニングの詳細

データ収集は、100 個のエージェントが同時に環境と対話するシミュレーションによって行われ、各エージェントは 1500 ステップのエピソードで環境と対話します。

環境がリセットされるたびに、各エージェントはトラック上のランダムなゲートで初期化され、そのゲートを通過したときに以前に観測されたエージェントの状態と、そのゲートの周囲に境界のある摂動が設定されます。これまでの研究とは異なり、研究者らはトレーニング中にプラットフォームのダイナミクスをランダム化しませんでした。代わりに、実際のデータに基づいて微調整します。

トレーニング環境は TensorFlow Agents を使用して実装されます。ポリシーネットワークと値ネットワークはどちらも、それぞれ 128 個のノードを持つ 2 つのパーセプトロン層で表され、負の傾きが 0.2 の Leaky ReLU 活性化関数を使用します。ネットワークパラメータは Adam オプティマイザーを使用して最適化され、ポリシーネットワークと値ネットワークの両方の学習率は 3×10^-4 です。

研究者たちは、現実世界で収集された少量のデータに基づいて、当初の戦略を微調整しました。

具体的には、約 50 秒の飛行時間に相当する、実際の環境での完全な試験を 3 回実施しました。

研究者たちは、残差観測値と残差ダイナミクスを特定することでポリシーを微調整し、それをシミュレーションでのトレーニングに使用しました。この微調整フェーズでは、制御ポリシーの重みのみ更新され、ゲート検出ネットワークの重みは変更されません。

残差観測モデル

高速で移動すると、大きなモーションブラーが発生し、追跡された視覚的特徴が失われたり、線形オドメトリ推定値が大幅にずれたりする可能性があります。

研究者たちは、現実世界でのわずか数回の試行から決定された走行距離測定モデルを使用してポリシーを微調整します。

オドメトリのドリフトをモデル化するために、彼らはガウス過程を使用します。これは、オドメトリの摂動の事後分布を近似し、そこから時間的に一貫した実現をサンプリングできるようにするためです。

具体的には、ガウス過程モデルが、実際のロボットの状態の関数として残差の位置、速度、姿勢に適合されます。

観測残差は、実際の試験中に観測された視覚慣性オドメトリ (VIO) 推定値と、外部のモーショントラッキングシステムによって取得された地上の実際のプラットフォーム状態を比較することによって決定されます。

ドローンのハードウェア構成

人間のパイロットとスイフトが使用するクアッドローターは、重量、形状、推進力は同じです。しかし、人間が操縦するドローンには、Jetson コンピューターも RealSense カメラも搭載されておらず、対応するバラストが装備されています。

1. ドローンフレーム

ベースには、T-Motor Velox2306 モーターと 5 インチ 3 ブレードプロペラを装備した Armattan Chameleon 6 インチメインフレームが使用されています。

2. コンピューティングプラットフォーム

NVIDIA Jetson TX2 と ConnectTech Quasar キャリアボードは、6 コア CPU と 256 コア GPU を統合し、自律型ドローンの主なコンピューティングリソースを提供します。

3. カメラ

Intel Real Sense トラッキングカメラ T265 を搭載しており、USB 経由で NVIDIA Jetson TX2 に 100Hz VIO 推定値を提供できます。

4. フライトコントローラー

STM32 プロセッサを使用して Betaflight ソフトウェア (オープンソースの飛行制御ソフトウェア) を実行し、ドローンを制御します。

5. 重量

ドローン全体の重量は 870 グラムで、最大静止推力は約 35 ニュートン、静止推力対重量比は 4.1 です。

人間パイロットの評価

スウィフトと競った3人の人間チャンピオンは、ドローンとのレースがどのようなものだったかについて次のように語った。

アレックス・ヴァノーバー:

「レースの勝敗は、コース上で最も難しい部分であるスプリットSで決まるだろう。」

「これが私の最高のレースでした！ドローンにとても近かったので、それに追いつこうとしながら空気の乱気流を実際に感じることができました。」

トーマス・ビットマッタ:

「AIの可能性は無限です。これは世界を変える第一歩になるかもしれません。しかし、レーサーとしては、自分より速いものを望んでいません。」

「ドローン AI は、人間の能力の限界を理解するためのトレーニングツールになる日も近いでしょう。より速く飛行するほど、正確さよりもスピードが優先されます。しかし、ドローンで実際に何ができるのかを考えるきっかけにもなります。」

マーヴィン・シェッパー:

「マシンと競争するのとは全く違います。マシンは疲れないことが分かっているからです。」

参照: https://www.nature.com/articles/s41586-023-06419-4

<<: 人工知能がクラウド業界を変える5つの方法

>>: 12の性能項目で1位を獲得、GPT-4に最も近い中国最大級のモデルが登場！いよいよ本格的に営業開始です！

ブログ

Linux の割り込み処理メカニズムを使用してシステムパフォーマンスを向上させる

ブログ

スイフトシステム

1. 知覚システム

2. 制御戦略

結果

話し合う

方法

トレーニングアルゴリズム

観察し、行動し、報酬を与える

トレーニングの詳細

残差観測モデル

ドローンのハードウェア構成

1. ドローンフレーム

2. コンピューティングプラットフォーム

3. カメラ

4. フライトコントローラー

5. 重量

人間パイロットの評価

推薦する