ChatGPT を助手席に乗せましょう!清華大学、中国科学院、MITが共同でCo-Pilotヒューマン・コンピュータ・インタラクション・フレームワークを提案：乗客の意図を完璧に制御

今年の人工知能分野における最も重要なブレークスルーの一つとして、大規模言語モデルの研究は常に主要な関連分野で注目されてきました。

最近、清華大学、中国科学院、MIT の研究者らは、人間とコンピュータの相互作用の分野における大規模言語モデルの応用を研究しました。彼らは、Co-Pilot と呼ばれる人間とコンピュータの相互作用フレームワークを設計しました。これは、プロンプトを使用して ChatGPT (gpt3.5) を誘導し、人々の主観的な意図を考慮しながら単純な自動運転タスクを完了させます。

論文リンク: https://www.researchgate.net/publication/374800815_ChatGPT_as_Your_Vehicle_Co-Pilot_An_Initial_Attempt

この研究は、大規模な母国語モデルを自動運転タスクに直接介入するために使用する最も初期の試みの一つであり、自動運転分野における大規模言語モデルのさらなる深い応用の可能性を明らかにし、その後の関連研究の方向性を示唆した[1]。

研究背景: 大規模言語モデルを使用する理由

人間と車両のインタラクションは、スマートカー開発における重要な機能の一つであり、ドライバーの運転負担を軽減し、乗客の旅行体験を向上させるのに大いに役立ちます。関連機能は、消費者が選択する際の重要な基準にもなっています。

既存のヒューマン・コンピュータ・インタラクション・システムでは、音声認識やコマンド実行などの機能がすでに実現されていますが、ほとんどの場合、システムは、確立されたコマンドのトレーニングに基づいて限られた範囲内で回答または応答することしかできず、一定の制限があります。

対照的に、大規模言語モデルはこの分野で優れたパフォーマンスを発揮します。

1. 人の意図を理解できる:

大規模言語モデルには推論能力があり、テキストから話者の真意を理解し、それに応じた応答を返すことができます。

2. 常識を持つ:

大量のトレーニングデータに含まれる知識のおかげで、大規模な予測モデルは一定の常識を持ち、多くの特定の分野の基礎知識と機能を習得します。

3. さまざまなタスクへの高い適応性:

プロンプト単語を調整することで、大規模言語モデルはさまざまなタスクへの適応性が高く、さまざまな種類のタスクにすばやく適応できるため、アプリケーションと実装の効率が大幅に向上します。

これに基づいて、大規模言語モデルは人間と機械の共同運転の問題を解決するための新しいアイデアを提供します。

自動運転における人間とコンピュータの相互作用の分野における大規模言語モデルの応用を探求するために、研究者は、乗客、大規模言語モデル、車両間の相互作用を実現する「Co-Pilot」アーキテクチャを提案しました。

この計画の実現可能性を検証するために、研究者らはそれをテストするための 2 つの異なるタイプのタスクを設計し、実験結果は期待どおりでした。

副操縦士: アーキテクチャとコア

Co-Pilot アーキテクチャを次の図に示します。

Co-Pilot の主な構造には、次のモジュールが含まれます。

1. エンコーダー: 必要な情報をプロンプトに組み立て、専用の API を通じて大規模言語モデルに送信します。

2. LLM: 大規模言語モデル。この研究ではChatGPT (GPT3.5-turbo-0301)を使用しています。

3. デコーダー: 自然言語応答をコマンドまたはデータに変換し、車両の操作と制御を行います。

4. 保険メカニズム: 大規模言語モデルは確率モデルであるため、現時点では回答に誤りが生じるのを防ぐことは困難です。そのため、この保険メカニズムは、明らかに誤った指示が車両の動作に影響を与えないようにするために用意されています。

5. メモリ機構: Co-Pilot がタスクを完了するために必要なデータやその他の情報を保存します。入力の重要な部分として、作業プロセス中にリアルタイムで更新できます。

Co-Pilot には 2 つの主要なワークフローがあります。

1. 実装プロセス: Co-pilot は、さまざまなタスクに基づいて作業サイクルプロセスを完了します。

2. チューニングプロセス: 車両の専門家がさまざまなタスクに応じてメモリメカニズムを調整します。

記憶のメカニズム

本論文では、人間の認知心理学[2]に基づいた大規模言語モデル内の知識の蓄積をシミュレートし、自動運転シナリオに関係する可能性のある情報を分割するメモリメカニズムを提案し、Co-Pilotの情報利用の効率を総合的に向上させることを目指しています。

専門家主導のブラックボックス最適化

この方法は、ブラックボックス最適化における低次元空間での勾配フリー最適化の考え方と、専門家の主観的な注釈を使用してタスク完了効果を評価し、メモリ内のコンテンツを更新してプロンプトワードを強化し、LLMが少数サンプル学習を実行できるようにします。

シミュレーション実験

Co-Pilot アーキテクチャの信頼性を検証するために、この論文では 2 つのタスクを設計し、MATLAB/Simulink に基づくシミュレーションプラットフォームで実行しました。

実験1: 軌道追従コントローラの選択

この実験では、あらかじめ設定された経路を走行する自動制御の自動車があると仮定し、研究者はCo-Pilotに現在の車両の状態や道路状況などの情報を与え、現在の乗員の意図（速度の確保、軌道の追従、快適性の体験など）に最も合ったモーションコントローラーを選択するように要求します。

モーションコントローラーは、NMPC コントローラー、Stanley + Preview コントローラー、PID コントローラーなどのプリセットモジュールです。

トラック概要

実験1におけるCo-Pilotの具体的な構造

チューニング段階では、研究者は意味記憶とエピソード記憶を別々に更新しました。意味記憶はコントローラーの種類 (A1) または定性的な説明 (A2) のみを提供できますが、エピソード記憶は過去の同様のシナリオでのコントローラーの特定のパフォーマンス (A3) を提供できます。

トラックは5つのセクションに分かれており、研究者は各セクションでCo-Pilotが現在の乗客の意図に最も一致するコントローラーを選択したかどうかに基づいてCo-Pilotにスコアを付けました（最良は1ポイント、2番目に良いものは0.5ポイント、最悪は0ポイント、トラックの合計スコアは最大5ポイント）。異なるメモリがCo-Pilotのパフォーマンスに与える影響を分析するために、研究者は「正確な追跡」と「安定性の維持」という2つの意図でCo-Pilotを個別にテストしました。テスト結果によると、A1は3ポイントしか獲得せず、Co-PilotはすべてのセクションでNMPCコントローラーを選択しました。

現時点で得られる情報は限られているため、「NMPC は非常に優れた制御効果を持つ」というトレーニング中に蓄積された常識に基づいて判断することしかできません。 A2 は 7.5 ポイント、A3 は 8.5 ポイントを獲得し、同様のタスクにおける Co-Pilot の推論には文脈記憶が最も役立ち、人間の意図に基づいた合理的な応答が可能になることが証明されました。

その後、研究者らは調整されたA3プロンプトモデルを使用して、より複雑な実験を実施しました。この実験では、5 つのセグメントにわたる人間の意図は一貫しておらず、より口語的に表現された新しい意図の「刺激」が導入されました。

実験結果を下図に示します。Co-Pilot は各セクションで乗員の意図に最も合ったコントローラーを選択できます (コントローラーは切り替え時に前のセクションの車両状態の影響を受けるため、選択したコントローラーの効果が期待と若干異なる可能性があります)。

実験2: 2車線障害物回避軌道計画

この実験では、研究者は計画タスクに焦点を移し、コ・パイロットに現在の道路状況を説明し、次の 10 秒間の経路を提供するように依頼しました。

調整段階では、研究者は手続き記憶の組織化と最適化に重点を置きました。意味記憶とエピソード記憶に含まれる情報には基本的に違いはありません。この前提の下では、異なるプロンプトによってもたらされる結果の大きな違いは、さらに調査する価値があります。

4つの質問と10回のテストの平均スコアの差

（採点基準：合理性5点、完成度3点、正確性2点）

4つのプロンプトに基づく代表的な軌跡

B4プロンプトの使用を前提として、さらに異なるタイプの乗客の意図が導入され、得られた代表的な軌道は次のとおりです。正しい回避軌道を提供することを基盤として、Co-Pilotは軌道をさらに調整して乗客の意図と一致させることができることがわかります。

さまざまな乗客の意図の代表的な軌跡。すべて乗客の意図と一致している。

結果と考察

実験では、プロンプト内のさまざまなメモリの組み合わせが LLM のパフォーマンスに大きな影響を与えることがわかります。

1. LLM は常識と記憶に含まれる情報に基づいて推論できます。提供された情報が合理的な推論を行うのに不十分な場合、LLM はトレーニング中に蓄積された経験に基づいて決定を下すことができます。

2. プロンプト内の手続き記憶は、タスク自体の説明には本質的な違いをもたらさない場合もありますが、LLM のパフォーマンスには大きな影響を及ぼします。

これらの現象は、将来研究する価値があるかもしれないさらなる疑問を提起します。LLM の利点を最大限に生かすには、交通などの複雑なシーンをどのように効率的に記述すればよいのでしょうか。 LLM 内で推論/タスク完了を実装するためのメカニズムは何ですか?これらの問題は、大規模モデルや人工知能の解釈可能性やセキュリティなどの重要な問題と密接に関連しています。

今後の展望と課題

Co-PilotはLLMを人間と機械のハイブリッド知能に適用する革新的な試みである[3]。 LLM は人間と機械のコミュニケーションの効率を大幅に向上させ、人間と機械がお互いをよりよく理解できるようにします。

人間の専門家が Co-Pilot を調整するプロセスは、システムの適応学習として考えることができます。これにより、人間と機械の緊密なコラボレーションが可能になり、AI システムのテストと調整に大きな可能性が生まれます。

LLMは既存の並列学習アーキテクチャ[4]と組み合わせることで、機械学習の効率をさらに向上させることができます。

一方、本稿の実験で示されているように、大規模な言語モデルが大量のデータによるトレーニングを通じて獲得した常識は、その仕事において重要な役割を果たす可能性があります。

その後、これに基づいて、大規模なマルチモーダルハイブリッドモデル（視覚+言語モダリティなど）は、「知覚-計画-実行」プロセスをさらに開拓し、そのような大規模モデルを、現実世界との相互作用を必要とする自動運転やロボットなどの複雑なタスクに対応できるようにします[5]。

もちろん、研究プロセス中に浮上した多くの潜在的な課題も注目に値します。たとえば、LLM のパフォーマンスをさらに向上させるにはどうすればよいのでしょうか。 LLM パフォーマンスの一貫性と安定性をどのように確保するのでしょうか?より複雑な動的シナリオに直面した場合、LLM がタスクを正しく完了することをどのように確認できるでしょうか?

要約する

本研究では、人間と機械の共同運転タスクに大規模言語モデルを直接使用する Co-Pilot アーキテクチャを提案し、アーキテクチャの信頼性と大規模言語モデルの自動運転タスクへの適用性を予備的に証明するための対応する実験を設計します。関連分野における研究の潜在的な機会と課題について説明します。

この研究は最近、IEEE Transactions on Intelligent Vehicles に掲載されました。清華大学深圳国際大学院の Wang Shiyi 氏と清華大学自動化学部の Zhu Yuxuan 氏が本論文の共同筆頭著者であり、責任著者は清華大学自動化学部の Li Li 教授です。

<<: 10 分で「Chen Tianqi GPT」をカスタマイズすると、多数の OpenAI 新製品がテスト用に登場します。サム・アルトマンの次元削減が起こり、何千ものAIスタートアップが葬り去られる

>>: 仮想誘拐：人工知能がランサムウェア詐欺を助長