大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

大きなモデルに「深呼吸して一歩ずつ進んでください」と指示すると、驚くほど効果があります。DeepMindは、モデルに指示を与える最も効果的な方法を見つけました。

最適化はあらゆる分野で重要です。

一部の最適化は初期化から始まり、その後ソリューションを繰り返し更新して目的関数を最適化します。このような最適化アルゴリズムは、特に導関数を使用しない最適化の場合、決定空間によってもたらされる特定の課題に対処するために、個々のタスクに合わせて調整する必要があることがよくあります。

次に紹介する研究では、研究者は異なるアプローチを採用しました。彼らは大規模言語モデル (LLM) を最適化装置として使用し、さまざまなタスクでのパフォーマンスが人間が設計したプロンプトよりも優れていました。

この研究は、Google DeepMind によるもので、シンプルでありながら効果的な最適化手法である OPRO (Optimization by PROmpting) を提案しています。この手法では、最適化タスクを自然言語で記述できます。たとえば、LLM のプロンプトは、「深呼吸して、この問題を段階的に解決してください」や「数値コマンドと明確な思考を組み合わせて、答えを迅速かつ正確に解読しましょう」などです。

各最適化ステップで、LLM は以前に生成されたソリューションのヒントとその値に基づいて新しいソリューションを生成し、新しいソリューションを評価して次の最適化ステップのヒントに追加します。

最後に、この研究では、OPRO メソッドを線形回帰と巡回セールスマン問題 (よく知られている NP 問題) に適用し、プロンプト最適化に進み、タスクの精度を最大化する指示を見つけることを目標としています。

この論文では、PaLM-2 モデル ファミリの text-bison と Palm 2-L、GPT モデル ファミリの gpt-3.5-turbo と gpt-4 を含む複数の LLM の包括的な評価を実施します。 GSM8K および Big-Bench Hard のプロンプトを最適化するための実験が行われました。結果によると、OPRO によって最適化された最良のプロンプトは、手動で設計されたプロンプトよりも、GSM8K では 8%、Big-Bench Hard タスクでは最大 50% 優れています。

論文アドレス: https://arxiv.org/pdf/2309.03409.pdf

「ヒント最適化を実行するには、『問題を解き始めましょう』などの基本的な命令や空の文字列から始めます。そして最終的に、OPRO は LLM のパフォーマンスを徐々に向上させる命令を生成します。以下に示すパフォーマンス上昇曲線は、従来の最適化で発生するものとまったく同じです」と、論文の第一著者であり、Google DeepMind の研究科学者である Chengrun Yang 氏は述べています。

「各 LLM が同じ命令で始まっても、OPRO によって最適化された後、異なる LLM の最終的な最適化された命令は異なるスタイルを示します。これは人間が書いた命令よりも優れており、同様のタスクに転用できます。」

上記の表から、LLM が最適化装置として最終的に発見した命令スタイルは非常に異なっていることもわかります。PaLM 2-L-IT と text-bison の命令は比較的簡潔ですが、GPT の命令は長くて詳細です。一部のトップレベルの指示には「ステップバイステップ」のヒントが含まれていますが、OPRO は他の意味表現を見つけて、同等以上の精度を実現できます。

しかし、研究者の中には、「深呼吸して一歩ずつ進んでください」というリマインダーは、Google の PaLM-2 では非常に効果的だった (正解率は 80.2) という人もいます。しかし、すべてのモデルやすべての状況で機能することを保証することはできませんので、盲目的にどこでも使用すべきではありません。

OPRO: 最適化ツールとしての LLM

図2はOPROの全体的なフレームワークを示しています。各最適化ステップにおいて、LLM は最適化問題の説明とメタプロンプト内の以前に評価されたソリューションに基づいて、最適化タスクの候補ソリューションを生成します (図 2 の右下部分)。

次に、LLM は新しいソリューションを評価し、それを後続の最適化プロセスのメタヒントに追加します。

LLM がより良い最適化スコアを持つ新しいソリューションを提案できない場合、または最適化ステップの最大数に達した場合、最適化プロセスは終了します。

図3に例を示します。メタプロンプトには 2 つのコアコンテンツが含まれています。最初の部分は、以前に生成されたプロンプトとそれに対応するトレーニング精度です。2 番目の部分は最適化問題の説明で、関心のあるタスクを説明するためにトレーニング セットからランダムに選択されたいくつかの例が含まれています。

この論文では、まず LLM が「数学的最適化」オプティマイザーとして持つ可能性を示します。線形回帰問題の結果を表 2 に示します。

次に、この論文では、巡回セールスマン問題 (TSP) における OPRO の結果についても検討します。具体的には、TSP とは、n 個のノードとその座標のセットが与えられた場合に、開始ノードから始めてすべてのノードを横断し、最終的に開始ノードに戻る最短経路を見つけるという TSP タスクを意味します。

実験

この実験では、事前トレーニング済みの PaLM 2-L、命令を微調整した PaLM 2-L、text-bison、gpt-3.5-turbo、gpt-4 を LLM オプティマイザーとして使用し、事前トレーニング済みの PaLM 2-L と text-bison を LLM スコアラーとして使用します。

評価ベンチマーク GSM8K は小学校の数学に関するもので、7473 のトレーニング サンプルと 1319 のテスト サンプルがあります。Big-Bench Hard (BBH) ベンチマークは、記号操作や常識的推論など、算術推論以外の幅広いトピックをカバーしています。

GSM8Kの結果

図 1 (a) は、事前トレーニング済みの PaLM 2-L をスコアラーとして、PaLM 2-L-IT をオプティマイザーとして使用した即時最適化曲線を示しています。最適化曲線は全体的に上昇傾向を示しており、最適化プロセス全体を通じていくつかのジャンプが見られます。

次に、text-bison スコアラーと PaLM 2-L-IT オプティマイザーを使用して Q_begin 命令を生成した結果を示します。空の命令から開始し、その時点でのトレーニング精度は 57.1 で、その後トレーニング精度が上昇し始めます。図 4 (a) の最適化曲線も同様の上昇傾向を示しており、この期間中にトレーニング精度が飛躍的に向上しています。

BBHの結果

図 5 は、「ステップごとに考えてみましょう」という指示と比較した、23 の BBH タスクのそれぞれの精度の違いを視覚的に示しています。これは、OPRO によって見つかった指示が「ステップごとに考えてみましょう」よりも優れていることを示しています。ほぼすべてのタスクで大きな利点があります。この論文で見つかった指示は、PaLM 2-L スコアラーを使用した 23 のタスクのうち 19 で、text-bison スコアラーを使用した 23 のタスクのうち 15 で 5% 以上優れたパフォーマンスを発揮します。

GSM8K と同様に、図 6 に示すように、ほぼすべての BBH タスクの最適化曲線が上昇傾向を示していることがわかります。

<<:  10万ドル+26日、低コスト1000億パラメータLLMが誕生

>>:  13,000のスターを獲得したオープンソースコードインタープリターは、GitHubのホットリストでトップとなり、ローカルで実行してインターネットにアクセスできる。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

李菲菲の「具現化された知能」はどこまで進歩したのか?

2009年、当時プリンストン大学に勤務していたコンピューター科学者のフェイフェイ・リー氏が、人工知...

ロボットは購入するよりもレンタルした方が良いのでしょうか?新モデルの普及には「4段階をクリア」する必要がある

ロボットの重要性は明らかです。ロボットは効率的で柔軟性があり、安定した動作特性を備えているため、人間...

...

DeepSense: モバイルセンサーの時系列データを処理するためのディープラーニングフレームワーク

DeepSense は、エンドデバイス上で実行されるディープラーニング フレームワークです。ローカル...

GPT-4とMidjourneyに加えて、Tan Pingの起業家チームは3D基本モデルを構築したいと考えています。

少し前にOpenAIが驚くべき生成効果を持つグラフィックモデルDALL・E 3をリリースしました。た...

AI 株神: 機械学習を使って株価を予測するには?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

国防総省が新たなAIを開発: 海、陸、空のデータをリアルタイムで分析し「未来を予測」

[[415593]] 8月5日、外国メディアの報道によると、米軍は世界中のセンサーデータをタイムリ...

5つのAI技術トレンドが私たちの労働環境を根本的に変える

[51CTO.com クイック翻訳] 現在、人工知能技術に対する人々の見解は主に2つの陣営に分かれて...

2021 年に人工知能が最も大きく発展する分野はどれでしょうか?

2021年のAIアプリケーションのハイライト[[438943]] 2021年は世界全体にとって非常...

AIの諸刃の剣:質問を検索するために写真を撮ることと不正行為を支援すること

子どもを指導しているとき、圧倒されたり、怒りすぎて気が狂いそうになったりすることがありますか? [[...

最初の壮大な統合事前トレーニング済みモデル! BEVGPT: 予測、意思決定、動作計画を統合します。

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工ニューラルネットワークとBPアルゴリズムについての簡単な説明

[[338555]] 【51CTO.comオリジナル記事】 1 はじめに現在、機械学習技術とも呼ばれ...

Google が「同時通訳」システム Translatotron を発表: テキスト変換なしの音声翻訳

Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な...