大型モデルがドローンを制御できるように、北京航空航天チームは具現化された知能の新しいアーキテクチャを提案した

大型モデルがドローンを制御できるように、北京航空航天チームは具現化された知能の新しいアーキテクチャを提案した

マルチモーダル時代突入、大型機種でもドローンを操縦可能!

視覚モジュールが開始条件を捉えれば、大型モデルの「頭脳」が動作指示を生成し、ドローンはそれを迅速かつ正確に実行できるようになります。

北京航空航天大学インテリジェントUAVチームの周耀明教授のチームを含む研究者らは、マルチモーダルな大型モデルに基づく具現化されたインテリジェントボディアーキテクチャを提案した。

現在、このアーキテクチャはドローンの制御に適用されています。

では、この新しいインテリジェントエージェントはどのように機能し、その技術的な詳細はどのようなものでしょうか?

「エージェントは脳である」

研究チームは、大型モデルのマルチモーダルデータ理解能力を利用して、現実の物理世界からの写真、音、センサーデータなどのマルチソース情報をエネルギー体の知覚に融合し、現実世界のアクチュエータの動作をインテリジェントボディの動作として使用しました。

同時に、チームは「エージェントは大脳、コントローラーは小脳」という制御アーキテクチャを提案しました。

エージェントは、脳と呼ばれる意思決定ジェネレーターとして、高レベルの動作を生成することに重点を置いています。

コントローラーである小脳は、高レベルの動作 (目的のターゲット ポイントなど) を低レベルのシステム コマンド (ローター速度など) に変換することに重点を置いたモーター コントローラーです。

具体的には、研究チームはこの成果には3つの大きな貢献があると考えています。

実際に適用された新しいシステムアーキテクチャ

研究チームは、マルチモーダルな大規模モデルに基づく知的エージェントを脳内に具体化し、実際のロボットに適用するための新しいシステムアーキテクチャを提案した。

ロボットの動作プランナーとコントローラーは小脳として視覚化され、ロボットの知覚システムは人間の目、耳、その他の情報収集器に類似しており、ロボットのアクチュエーターは人間の手やその他のアクチュエーターに類似しています。

△ 図1 ハードウェアシステムアーキテクチャ

これらのノードは ROS を介して接続され、ROS 内のメッセージのサブスクリプションとパブリッシュ、またはサービスの要求と応答を介して通信します。これは、従来のエンドツーエンドの大規模ロボットモデル制御とは異なります。

このアーキテクチャにより、エージェントは高レベルのコマンドの生成に集中できるようになり、高レベルのタスクに対してよりインテリジェントになり、実際の実行に対してより堅牢で信頼性の高いものになります。

△ 図2 ソフトウェアシステムアーキテクチャ

新しいエージェント

このアーキテクチャの下で、著者らは頭脳としてインテリジェントエージェント AeroAgent を構築しました。

エージェントは主に 3 つの部分で構成されます。

  • マルチモーダル認識・監視機能を備えた自動計画生成モジュールで、スタンバイモードでの緊急インシデント処理にも優れています。
  • マルチモーダル メモリの検索と反映に使用できるマルチモーダル データ メモリ モジュール。エージェントに少量学習の能力を与えます。
  • 具現化されたインテリジェントアクションモジュールは、具現化されたインテリジェントボディとROS上の他のモジュールとの間に安定した制御のためのブリッジを確立することができます。このモジュールは、ブリッジとしての操作を使用してROS上の他のノードにアクセスする機能を提供します。

同時に、アクションの完了には、センサーからアクションの実行に必要なパラメータを取得するための複数の操作の相互作用が必要になる場合があり、エージェントが包括的な状況認識とそれが持つアクチュエータに基づいて安定した具現化されたアクションを出力できることを保証します。

△ 図3 AeroAgentモジュールアーキテクチャ

大規模モデルとROSの架け橋

具現化されたインテリジェントエージェントとROSロボットシステムの間に橋渡しをし、エージェントが生成した操作がROSに正確かつ安定的に送信され、他のノードによって正常に実行され、他のノードによって提供された情報がLMMによって読み取られて理解されるように、チームはROSchainを設計しました——

LLM/LMM と ROS 間のブリッジ。

ROSchain は、一連のモジュールとアプリケーション プログラミング インターフェイス (API) を通じて、ロボット センサー、アクチュエーター、制御メカニズムと大規模なモデルの統合を簡素化し、インテリジェント エージェントが ROS システムにアクセスするための安定したミドルウェアを提供します。

ドローンを選ぶ理由

システムアーキテクチャのテストとシミュレーションにドローンが選ばれた理由については、研究チームは主に3つの理由があると説明した。

まず、今日の LMM に含まれる Web 規模の世界知識は主に三人称視点からのものですが、ヒューマノイド ロボットなどの分野における具現化された知能は、人間を主体とした一人称視点に似ています。

ドローンに搭載されたカメラ(特に下向きのカメラ)は、第三者の視点(神の視点)から見ると、具現化された知能のようなものです。

一方、現在の LMM は、モデルの展開であれ API サービスであれ、通常はコンピューティング リソースによって制限されるため、応答に一定の遅延が生じます。

これは自動運転などの分野での応用には障害となるが、ドローンのミッション計画ではホバリングが可能なので遅延に対処する能力がある。

これら 2 つの点は、現在の技術開発レベルでは、ドローンが関連する理論とアプリケーションを検証するための先駆者として適していることを意味します。

第二に、現在の産業用ドローン分野では、山火事救助、農林植物保護、無人放牧、電力検査など、実際の操作のほとんどはパイロットと専門家が協力して実行されており、インテリジェントなタスク実行には産業上のニーズがあります。

第三に、将来の発展の観点から、物流、建設、工場などの分野でマルチエージェントの協調協力に対する明らかな需要があります。

この分野では、ドローンは「神の視点」を備えた具現化された知能実体として、タスクを割り当てる中央ノードのリーダーとして機能するのに適しており、他のロボットはドローンのアクチュエーターの一部と見なすことができるため、この研究は将来の発展の見通しもあります。

研究チームはエアジェン社のシミュレーターでシミュレーション実験を実施し、DRLと他の方法を対照群として選択しました。結果は次のとおりです。

山火事の捜索救助シナリオでは、AeroAgent は 100 ポイント (標準化スコア、以下同じ) を獲得し、平均は 1 ステップあたり 2.04 ポイントでした。

LLM または DRL ベースのエージェントを単に呼び出したエージェントは、29.4 ポイントしか獲得できず、ステップあたり平均 0.2 ポイントとなり、AeroAgent の 10 分の 1 未満でした。

△ 図4-1 山火事救助現場

着陸タスクでも、AeroAgent は総合スコア 97.4、ステップあたりの平均スコア 48.7 で他のモデルを上回りました。

△図4-2 海上上陸シーン

風力タービンの検査テストでは、AeroAgent がタスクを完了できる唯一のモデルとなりました。

△図4-3 風力発電設備の点検風景

ナビゲーションタスクでは、AeroAgent 4.44 のステップあたりの平均スコアは、それぞれ DRL と純粋な LLM の 40 倍とほぼ 10 倍です。

△図4-4 エアジェンシミュレーション実験

研究チームはまた、単純な閉じ込められた群衆誘導実験をケーススタディとして使用し、実際のシナリオでドローンシステムをテストしました。

△図5 閉じ込められた人を誘導するケース実験

この研究を基に、チームは現在、高地のヤク牧場で無人放牧知能ドローンの実験を行い、実用化の可能性を探っています。また、「知能の具現化」を目標に、他のロボット/マルチロボット協働知能体の実用化も模索していきます。

論文アドレス: https://arxiv.org/abs/2311.15033

<<: 

>>:  Ali はまた新しいことをやっています。人間の顔と文章を使って「Washing the Window」に合わせて踊ることができ、衣装や背景も自由に変更できます。

ブログ    
ブログ    
ブログ    

推薦する

未来はAIエンジニアの手に。しかし変革を成功させるのは簡単ではない

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

OpenAIの「クレイジーウィーク」の力はあらゆる分野に影響を及ぼした

先週は間違いなく、OpenAI にとっていつも以上に忙しい週でした。ユーザー数でトップクラスの生成A...

効率的なコーディングのための 5 つの IntelliJ IDEA プラグイン

人工知能(AI)は現在、将来のトレンドと発展の方向性として広く認識されています。 AI がすべての仕...

IDCの予測: 今年のAI市場規模は1565億ドルに達し、前年比12.3%増となる

市場調査会社IDCは、2020年の世界の人工知能市場の規模は2019年に比べて12.3%増加すると予...

NeurIPS 2019: Google が機械学習における分布外異常検出を改善する新しい手法を提案

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が...

...

NVIDIA が Canvas を発表: AI を活用してシンプルな筆遣いをフォトリアリスティックな風景画に変換

[[407129]] 2年前、NVIDIAは、大雑把な落書きをリアルタイムでフォトリアリスティックな...

暗号化アルゴリズムと暗号化システムアーキテクチャに関する簡単な説明

[[436278]]背景情報インターネットの急速な発展に伴い、金融業界は情報セキュリティにますます注...

ドローンは人気があり、3つの主要なアプリケーションが農家の役に立つ

今日は二十四節気の一つ、白露節気です。白露節気の季節には、我が国のほとんどの地域が秋の収穫期に入り、...

将来のモバイル通信ネットワーク、6Gと人工知能の統合

将来の 6G ネットワークのより豊富なビジネス アプリケーションと極めて厳しいパフォーマンス要件を満...

自動応答は人工知能ではなく、自律応答は

セキュリティ オペレーション センター (SOC) のアナリストは推論と意思決定に優れていますが、2...

スマートカーの「ChatGPTモーメント」はどこまで進んでいるのでしょうか?

今年の「テクノロジー スプリング フェスティバル ガラ」CES で最も注目を集めたものは何かと聞かれ...