GPT-4を直接使用してエアコンを制御する、マイクロソフトのトレーニング不要の手法によりLLMは産業用制御に向けて前進

大規模言語モデル (LLM) 技術が成熟するにつれて、その適用範囲が拡大しています。インテリジェントライティングから検索エンジンまで、LLM の応用可能性は少しずつ探求されています。

最近、Microsoft Research Asia は、LLM を産業用制御に使用でき、従来の強化学習方法よりも優れた結果を達成するには少数の例のみが必要であると提案しました。この研究では、GPT-4 を使用して空調システム (HVAC) を制御することを試み、非常に良好な結果が得られました。

論文アドレス: http://export.arxiv.org/abs/2308.03028

インテリジェント制御の分野では、強化学習 (RL) が最も一般的な意思決定方法の 1 つですが、サンプルの非効率性とそれに伴う高いトレーニングコストという問題があります。エージェントがタスクを最初から学習する場合。従来の強化学習パラダイムでは、これらの問題を解決するのは根本的に困難です。結局のところ、人間であってもドメインの専門家になるには通常何千時間もの学習が必要であり、これはおよそ何百万回ものやり取りに相当します。

しかし、在庫管理、定量取引、HVAC 制御など、産業シナリオにおける多くの制御タスクでは、さまざまなタスクを低コストで処理するために高性能コントローラーを使用することが好まれており、これは従来の制御方法にとって大きな課題となっています。

たとえば、最小限の微調整と限られた数の参照デモンストレーションで、さまざまな建物の HVAC を制御できるようにしたい場合があります。 HVAC 制御の基本原理はさまざまなタスク間で類似している可能性がありますが、シーン移行のダイナミクスや状態/アクション空間は異なる場合があります。

さらに、強化学習エージェントをゼロからトレーニングするためのデモンストレーションが十分に存在しないのが普通です。したがって、強化学習やその他の従来の制御方法を使用して、このようなシナリオに一般的に適用できるインテリジェントエージェントをトレーニングすることは困難です。

基礎となるモデルに関する事前知識を使用することは有望なアプローチです。これらの基本モデルは、多様なインターネット規模のデータセットを使用して事前トレーニングされているため、さまざまな産業用制御タスクの豊富な事前知識のソースとして使用できます。基本モデルは、強力な創発能力と、さまざまな下流タスクに迅速に適応する能力を実証しています。具体的な例としては、GPT-4、Bard、DALL-E、CLIP などがあります。最初の 2 つは大規模言語モデル (LLM) の代表であり、最後の 2 つはテキストと画像を処理できます。

基礎モデルの最近の成功により、LLM を使用して意思決定を実装するためのいくつかのアプローチが登場しました。これらの方法は、特定の下流タスクに合わせて LLM を微調整する方法、LLM とトレーニング可能なコンポーネントを組み合わせる方法、事前トレーニング済みの LLM を直接使用する方法の 3 つのカテゴリに大まかに分類できます。

これまでの研究では、制御実験を行うために基本モデルが使用されていましたが、選択されたタスクは通常、ロボット工学、ホームアシスタント、またはゲーム環境でしたが、Microsoft Research Asia チームは産業用制御タスクに焦点を当てました。従来の強化学習法では、このタスクには 3 つの大きな困難があります。

1) 意思決定エージェントは通常、異なる状態空間や行動空間、移行ダイナミクスなど、一連の異種タスクに直面します。強化学習法では、異種のタスクに対して異なるモデルをトレーニングする必要があり、コストがかかります。

2) 意思決定エージェントの開発プロセスでは技術的負債が非常に少なくて済むため、提供されるサンプルの数が不十分（またはまったく存在しない）であり、従来の強化学習アルゴリズムではトレーニングにビッグデータが必要なため、特定のタスク用のモデルを設計できない可能性があります。

3) 意思決定エージェントは、トレーニングを必要とせずに、新しいオンラインインタラクションエクスペリエンスに完全に依存して、オンラインで新しいシナリオや変化する動的な状況に迅速に適応する必要があります。

これらの問題を解決するために、Microsoft Research Asia の Lei Song などの研究者は、事前トレーニング済みの LLM を直接使用して HVAC を制御することを提案しました。この方法は、少数のサンプルのみで異種タスクを解決できます。このプロセスではトレーニングは行われず、サンプルはコンテキスト学習のための少数ショット学習の例としてのみ使用されます。

報道によると、この研究の目的は、事前にトレーニングされた LLM を直接使用して産業用制御タスクを実行する可能性を探ることです。具体的には、専門家のデモンストレーションや過去のやり取りから例を選択するメカニズムと、目標、指示、デモンストレーション、現在の状態をプロンプトに変換するプロンプトジェネレーターを設計しました。次に、生成されたプロンプトを使用して、LLM を通じて制御を付与します。

研究者らは、彼らの目標はさまざまな設計が産業用制御タスクにおけるLLMのパフォーマンスにどのように影響するかを調査することであり、この方法の多くの側面は制御が難しいと述べた。

まず、この方法は概念的には単純ですが、従来の意思決定方法と比較したパフォーマンスは不明です。
第二に、基本モデルのさまざまなタスク（さまざまなコンテキスト、アクション空間など）への一般化能力については、まだ研究する必要があります。
3 番目に、言語ラッパーのさまざまな設計に対するこのアプローチの感度 (たとえば、プロンプトのどの部分がパフォーマンスに最も大きな影響を与えるか) を研究することも価値があります。

研究者たちは、これらの質問に答えることで、これらの方法の可能性が明らかになり、技術的負債の少ない産業用制御タスク向けのソリューションをどのように設計できるかが示されることを期待しています。

この論文の主な貢献は次のとおりです。

私たちは、トレーニングを必要とせずに産業用制御用の基本モデルを使用する方法を開発しました。この方法は、技術的負債の少ないさまざまな異種タスクに使用できます。
研究者らは、GPT-4 を使用して HVAC を制御する実験を行い、肯定的な結果を得て、これらの方法の可能性を実証しました。
研究者らは、この方向での将来の発展を明らかにするために、広範なアブレーション研究（一般化能力、例の選択、プロンプト設計を網羅）を実施しました。

方法

この研究では、GPT-4 を使用して HVAC 機器の制御を最適化します。ワークフローを図 1 に示します。

図1: GPT-4を使用したHVAC制御のワークフローの概略図

このワークフローの LLM および環境コンポーネントは次のとおりです。

LLM: 決定者として使用される、事前トレーニング済みの大規模言語モデル。指定されたプロンプトに基づいて対応する応答が生成されます。プロンプトには、現在のステータスの説明、簡単な HVAC 制御手順、関連するステータスのデモンストレーションなどを含める必要があります。

環境: LLM によって提案されたアクションを実行し、フィードバックを提供する対話型環境またはシミュレーター。実験で使用した具体的な評価環境はBEAR（Zhang et al., 2022a）です。 BEAR で環境を作成するには、建物の種類 (大規模オフィス、小規模オフィス、病院など) と気象条件 (暑くて乾燥している、暑くて湿気が多い、暖かくて乾燥しているなど) の 2 つのパラメータを指定する必要があります。また、それぞれの気象条件が特定の都市に対応していることにも注目する価値があります。たとえば、バッファローは暑くて乾燥した気候と関連しています。

BEAR では、各状態は数値ベクトルで表され、最後の 4 次元を除く各次元は建物内の部屋の現在の温度に対応します。最後の 4 つの次元は、屋外温度、全天水平放射 (GHI)、地表温度、および居住者の電力を表します。あらゆる環境において、主な目標はエネルギー消費を最小限に抑えながら室温を約 22°C に維持することです。

BEAR での演算は -1 から 1 までの範囲の実数としてエンコードされます。負の値は冷却モードを示し、正の値は加熱モードを示します。これらの動きの絶対値はバルブの開度に対応し、エネルギー消費の指標となります。絶対値が大きいほど、エネルギー消費量が多くなります。研究者たちは、快適さとエネルギー消費の両方を考慮して、実験で次の報酬関数を使用しました。

ここで、nは部屋数、T=22℃は目標温度、t_iはi番目の部屋の温度を表します。ハイパーパラメータ α は、エネルギー消費と快適性のバランスをとるために使用されます。

さらに、ワークフローには、オンラインバッファー、トランスレーター、埋め込みモデル、エキスパートデモンストレーションデータセット、KNN モデル、クラスタリングモデル、プロンプトジェネレーターなどのコンポーネントも含まれます。プロンプトジェネレーターの実行プロセスを図 2 に示します。紫色のテキストは説明のためだけに使用され、プロンプトの一部ではありません。

図2: 新しい方法でプロンプトを生成する方法

実験

この研究では、さまざまな建物や気象条件での HVAC 機器の制御における GPT-4 の有効性を実験的に実証しました。適切な指示とデモンストレーション（必ずしも対象の建物や気象条件に関連しているわけではありません）が与えられれば、GPT-4 は特定の建物や気象条件に合わせて慎重にトレーニングされた強化学習ポリシーよりも優れたパフォーマンスを発揮できます。さらに、研究者らは、プロンプトの各部分の寄与を判断するために包括的なアブレーション研究を実施しました。

表1: さまざまな専門家のデモンストレーションを使用したGPT-4のパフォーマンス

表2: 異なるタイプと数のデモンストレーションを使用したGPT-4のパフォーマンス

図3: 同じ気象条件下でも、異なる建物には異なる専門家の戦略が対応している

図4: 異なる気象条件下で異なる専門家の戦略を使用した同じ建物

表3: 異なるタイプのアノテーションを使用したGPT-4のパフォーマンス

表4: 異なるタイプの記述と指示を使用したGPT-4のパフォーマンス

表5: プロンプトで実数が丸められているかどうかの異なるケースでのGPT-4のパフォーマンス

表6: PPOとGPT

<<:

>>: