大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。

一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新して目的関数を最適化します。このような最適化アルゴリズムは、特に導関数を使用しない最適化の場合、決定空間によってもたらされる特定の課題に対処するために、個々のタスクに合わせて調整する必要があることがよくあります。

次に紹介する研究では、研究者は異なるアプローチを採用しました。彼らは大規模言語モデル (LLM) を最適化装置として使用し、さまざまなタスクでのパフォーマンスが人間が設計したプロンプトよりも優れていました。

この研究は、Google DeepMind によるもので、シンプルでありながら効果的な最適化手法である OPRO (Optimization by PROmpting) を提案しています。この手法では、最適化タスクを自然言語で記述できます。たとえば、LLM のプロンプトは、「深呼吸して、この問題を段階的に解決してください」や「数値コマンドと明確な思考を組み合わせて、答えを迅速かつ正確に解読しましょう」などです。

各最適化ステップで、LLM は以前に生成されたソリューションのヒントとその値に基づいて新しいソリューションを生成し、新しいソリューションを評価して次の最適化ステップのヒントに追加します。

最後に、この研究では、OPRO メソッドを線形回帰と巡回セールスマン問題 (よく知られている NP 問題) に適用し、プロンプト最適化に進み、タスクの精度を最大化する指示を見つけることを目標としています。

この論文では、PaLM-2 モデルファミリの text-bison と Palm 2-L、GPT モデルファミリの gpt-3.5-turbo と gpt-4 を含む複数の LLM の包括的な評価を実施します。 GSM8K および Big-Bench Hard のプロンプトを最適化するための実験が行われました。結果によると、OPRO によって最適化された最良のプロンプトは、手動で設計されたプロンプトよりも、GSM8K では 8%、Big-Bench Hard タスクでは最大 50% 優れています。

論文アドレス: https://arxiv.org/pdf/2309.03409.pdf

「ヒント最適化を実行するには、『問題を解き始めましょう』などの基本的な命令や空の文字列から始めます。そして最終的に、OPRO は LLM のパフォーマンスを徐々に向上させる命令を生成します。以下に示すパフォーマンス上昇曲線は、従来の最適化で発生するものとまったく同じです」と、論文の第一著者であり、Google DeepMind の研究科学者である Chengrun Yang 氏は述べています。

「各 LLM が同じ命令で始まっても、OPRO によって最適化された後、異なる LLM の最終的な最適化された命令は異なるスタイルを示します。これは人間が書いた命令よりも優れており、同様のタスクに転用できます。」

上記の表から、LLM が最適化装置として最終的に発見した命令スタイルは非常に異なっていることもわかります。PaLM 2-L-IT と text-bison の命令は比較的簡潔ですが、GPT の命令は長くて詳細です。一部のトップレベルの指示には「ステップバイステップ」のヒントが含まれていますが、OPRO は他の意味表現を見つけて、同等以上の精度を実現できます。

しかし、研究者の中には、「深呼吸して一歩ずつ進んでください」というリマインダーは、Google の PaLM-2 では非常に効果的だった (正解率は 80.2) という人もいます。しかし、すべてのモデルやすべての状況で機能することを保証することはできませんので、盲目的にどこでも使用すべきではありません。

OPRO: 最適化ツールとしての LLM

図2はOPROの全体的なフレームワークを示しています。各最適化ステップにおいて、LLM は最適化問題の説明とメタプロンプト内の以前に評価されたソリューションに基づいて、最適化タスクの候補ソリューションを生成します (図 2 の右下部分)。

次に、LLM は新しいソリューションを評価し、それを後続の最適化プロセスのメタヒントに追加します。

LLM がより良い最適化スコアを持つ新しいソリューションを提案できない場合、または最適化ステップの最大数に達した場合、最適化プロセスは終了します。

図3に例を示します。メタプロンプトには 2 つのコアコンテンツが含まれています。最初の部分は、以前に生成されたプロンプトとそれに対応するトレーニング精度です。2 番目の部分は最適化問題の説明で、関心のあるタスクを説明するためにトレーニングセットからランダムに選択されたいくつかの例が含まれています。

この論文では、まず LLM が「数学的最適化」オプティマイザーとして持つ可能性を示します。線形回帰問題の結果を表 2 に示します。

次に、この論文では、巡回セールスマン問題 (TSP) における OPRO の結果についても検討します。具体的には、TSP とは、n 個のノードとその座標のセットが与えられた場合に、開始ノードから始めてすべてのノードを横断し、最終的に開始ノードに戻る最短経路を見つけるという TSP タスクを意味します。

実験

この実験では、事前トレーニング済みの PaLM 2-L、命令を微調整した PaLM 2-L、text-bison、gpt-3.5-turbo、gpt-4 を LLM オプティマイザーとして使用し、事前トレーニング済みの PaLM 2-L と text-bison を LLM スコアラーとして使用します。

評価ベンチマーク GSM8K は小学校の数学に関するもので、7473 のトレーニングサンプルと 1319 のテストサンプルがあります。Big-Bench Hard (BBH) ベンチマークは、記号操作や常識的推論など、算術推論以外の幅広いトピックをカバーしています。

GSM8Kの結果

図 1 (a) は、事前トレーニング済みの PaLM 2-L をスコアラーとして、PaLM 2-L-IT をオプティマイザーとして使用した即時最適化曲線を示しています。最適化曲線は全体的に上昇傾向を示しており、最適化プロセス全体を通じていくつかのジャンプが見られます。

次に、text-bison スコアラーと PaLM 2-L-IT オプティマイザーを使用して Q_begin 命令を生成した結果を示します。空の命令から開始し、その時点でのトレーニング精度は 57.1 で、その後トレーニング精度が上昇し始めます。図 4 (a) の最適化曲線も同様の上昇傾向を示しており、この期間中にトレーニング精度が飛躍的に向上しています。

BBHの結果

図 5 は、「ステップごとに考えてみましょう」という指示と比較した、23 の BBH タスクのそれぞれの精度の違いを視覚的に示しています。これは、OPRO によって見つかった指示が「ステップごとに考えてみましょう」よりも優れていることを示しています。ほぼすべてのタスクで大きな利点があります。この論文で見つかった指示は、PaLM 2-L スコアラーを使用した 23 のタスクのうち 19 で、text-bison スコアラーを使用した 23 のタスクのうち 15 で 5% 以上優れたパフォーマンスを発揮します。

GSM8K と同様に、図 6 に示すように、ほぼすべての BBH タスクの最適化曲線が上昇傾向を示していることがわかります。

<<: 10万ドル＋26日、低コスト1000億パラメータLLMが誕生

>>: 13,000のスターを獲得したオープンソースコードインタープリターは、GitHubのホットリストでトップとなり、ローカルで実行してインターネットにアクセスできる。