OpenAI の公式プロンプト単語ガイドよりも包括的な 26 の黄金律により、LLM のパフォーマンスが 50% 以上向上します。

論文アドレス: https://arxiv.org/abs/2312.16171
Githubアドレス: https://github.com/VILA-Lab/ATLAS
論文タイトル: LLaMA-1/2、GPT-3.5/4 の質問には原則的な指示がすべて必要

ChatGPTのような大規模モデルの出現後、大規模言語モデルのプロンプトワードの設計研究は重要な研究方向となった。OpenAIはChatGPTユーザー向けのプロンプトエンジニアリングガイド[1]も正式にリリースしており、これには6つの執筆ガイドラインが含まれている。1)明確な指示を書く。2)参照テキストを提供する。3)複雑なタスクをより単純なサブタスクに分割する。4)モデルに「考える」時間を与える。5)外部ツールを使用する。6)変更を体系的にテストする。

プロンプトワードは、大規模モデルをより有効に活用し、満足のいく回答を得るために非常に重要であることがわかります。しかし、OpenAI が提供するガイドラインは比較的広範かつ保守的であり、特定の操作やテクニックが含まれていないことがわかります。

本日ご紹介する記事では、より現実的なプロンプトエンジニアリングガイドラインを 26 項目にわたって紹介しており、1) 回答内容と言語スタイルの制御、2) プロンプトの単語構造と明瞭性、3) 複雑なタスクとコードプロンプト、4) 回答の特異性と情報内容、5) ユーザーとのやり取りと参加、その他の側面をカバーしています。

これらのプロンプト単語ガイドラインを一つずつ説明しましょう。

1) より簡潔な回答を希望する場合は、LLM に対して丁寧になる必要はありません。したがって、「お願いします」「よろしければ」「ありがとうございます」「はい」などのフレーズを追加する必要はありません。要点だけを述べてください。

2) 分野の専門家など、対象となる聴衆をプロンプトに組み込みます。具体的には、ビッグモデルにターゲットオーディエンスが子供であることを伝えると、回答がより理解しやすくなります。また、オーディエンスがこの分野の専門家であることを伝えると、より専門的で詳細な説明が提供されます。

3) インタラクティブな会話の中で、複雑なタスクを一連のよりシンプルなプロンプトに分解します。

4) 「やれ」などの肯定的な指示を使用し、「やらない」などの否定的な言葉は避けます。

5) トピック、アイデア、または情報を明確にしたり、より深く理解したりする必要がある場合は、次のヒントを参考にしてください。

[具体的なトピックを挿入] を簡単な言葉で説明してください。
11歳児に説明するつもりでこれを説明してください。
あたかも私がその分野の初心者であるかのように説明してください。
5歳児に何かを説明するときのように、簡単な英語で[記事/テキスト/段落]を書いてください。

6) 「より良い解決策を得るために、xxx ドルのチップをあげたいです!」というプロンプトを追加すると、改善がもたらされる可能性があります。これは、トレーニングデータでは、回答に対して報酬がある場合、回答者は回答をより正確かつ慎重に行う傾向があり、大規模なモデルはこれらのネットワークデータからこれらの構造と方法を学習するためです。

7) 例に基づくプロンプトを実装します（少数のプロンプトを使用）。

8) プロンプトをフォーマットするときは、「###Instruction###」で始め、「###Example###」または「###Question###」（該当する場合）を続けます。次にコンテンツを提示します。指示、例、質問、コンテキスト、入力データを区切るには、1 つ以上の改行を使用します。

9) プロンプトに次のフレーズを含めます: 「あなたのタスクは」および「あなたはしなければならない」。

10) キューに次のフレーズを含めます: 「あなたは罰せられます。」

11) プロンプトで「自然で人間らしい方法で質問に答えてください」というフレーズを使用します。

12) 「段階的に考える」などのガイドとなる言葉を使います。

13) プロンプトに次のフレーズを追加します。「回答は偏りのないものにし、固定観念に頼らないようにしてください。」

14) モデルが、必要な出力を提供するのに十分な情報を得るまで質問を続け、正確な詳細と要件を引き出します (例: 「これから、次のような質問をしてください...」)。

15) 特定のトピックやアイデア、または情報について質問し、理解度をテストしたい場合は、「[定理/トピック/ルール名] を教えてください。最後にテストを含め、回答後に私の回答が正しいかどうか教えてください。事前に答えを教えないでください。」のようなフレーズを使用できます。

16) 大規模言語モデルに役割を割り当てます。

17) セパレーターを使用します。

18) プロンプト内で特定の単語またはフレーズを複数回繰り返します。

19) Chain of Thoughts (CoT) と Few-Shot プロンプトを組み合わせます。

20) 出力の先頭を使用して、プロンプトを目的の出力の先頭で終了させます。出力リードを使用して、期待される応答の開始でプロンプトを終了します。

21) 課題がエッセイ/テキスト/段落またはあらゆる種類のテキストを書くことで、それをできるだけ詳細に記述する必要がある場合は、「必要な情報をすべて追加して、[トピック] を詳細に理解できるように、詳細な [エッセイ/テキスト/段落] を記述してください。」というプロンプトを追加できます。

22) スタイルを変更せずに特定のテキストを修正/変更する: ユーザーが送信したすべての段落を変更してみます。ユーザーの文法と語彙を改善し、自然に聞こえるようにするだけです。正式な段落は正式なままにし、元の文章スタイルを維持する必要があります。

23) 異なるファイルに配置されている可能性のある複雑なプログラミングプロンプトがある場合: 「今後は、複数のファイルにまたがるコードを生成するたびに、自動的に実行できる [プログラミング言語] スクリプトを生成し、指定されたファイルを作成するか、既存のファイルに変更を加えて生成されたコードを挿入します。[問題]」。

24) 特定の単語、句、または文でテキストを開始または継続する場合は、次のメソッドプロンプトを使用します。

冒頭の[歌詞/ストーリー/段落/散文…]をご紹介します：[歌詞/単語/文を挿入]。提供された単語に基づいて完成させてください。コンテンツのスタイルの一貫性を保ちます。

25) コンテンツを生成するためにモデルが従う必要のある要件を、キーワード、ルール、プロンプト、または指示の形式で明確に示します。

26) 記事や段落などのテキストを書いていて、提供された例に似た内容にする必要がある場合は、次のプロンプトを含めてください。

提供された段落 [/title/text/essay/answer] と同じ言語を使用してください。

以下にプロンプト単語とそれに対応する GPT-4 出力結果の具体的な例を示します。

1. GPT-4 に質問するときに、最後に「公平な説明を提供し、科学的証拠とさまざまな視点を強調してください」と付け加えることができます。このプロンプトを追加すると、GPT-4 の回答が明らかに豊富で深みのあるものになることがわかります。

2. モデルが目標と出発点をよりよく理解できるように、いくつかの例を提供できます。

3. 5 歳の子供に何かを説明するときのように、簡単な方法で質問に答えるようにモデルに指示できます。プロンプトワードがある場合とない場合では、モデルの応答を理解する難しさに明らかな違いがあることがわかります。

4. モデルを調整して、質問にもっと厳密かつ完全に答えられるようにすることができます。

定量的実験結果：

1. 模範解答品質改善率：この指標は、プロンプトワード原則を使用した後の解答品質の改善率を示します。

すべてのプロンプト単語原則は手動評価で多かれ少なかれ改善を達成していることがわかります。その中で原則 14 は 100% の改善を達成しており、これはすべての質問がこのプロンプト原則を使用することで改善されたことを意味します。一方、原則 1 の改善は比較的少なかった。

2. 応答精度の向上: 精度とは、モデルの出力または応答の精度を指し、判断基準は、応答が正確で、関連性があり、エラーがないかどうかです。この論文では、さまざまなモデルの絶対的な正確性と相対的な正確性の向上の両方を検討します。

上の図の結果は、プロンプト原則を追加した後、大規模モデルの応答品質の相対的な精度が向上したことを示しています。「小型」は 7B モデル、「中型」は 13B モデル、「大型」は 70B および GPT-3.5/4 モデルを意味します。プロンプトワード原則を使用した後、大規模モデルの改善が小規模および中規模モデルの改善よりも顕著であることがわかります。

3. 各モデルの精度向上率：

上の図は、異なるサイズの各モデルの相対的な改善を示しています。同様の現象が見られます。モデルが大きいほど、プロンプトワードに対する応答と返答がより敏感になり、精度の向上が大きくなります。

4. 次の図は、異なるサイズのモデルにおける各プロンプトワードの精度の向上の具体的な結果を示しています。

プロンプトワード基準データセット:

この論文では、26 個のキューワード基準を紹介するとともに、基準キューワードに基づくベンチマークも公開しています。このベンチマークでは、著者が基準ごとに 20 個の異なる質問を用意し、各質問に基準ありと基準なしの両方の大規模モデル応答が含まれています。

このデータセットは、1) プロンプトワードに応答する際の大規模言語モデルのパフォーマンスを評価すること、2) 好みに応じて大規模モデルを微調整することに使用できます。

データセットリンク: https://github.com/VILA-Lab/ATLAS。

プロンプトワードの原則の詳しい使用法と説明については、原文をお読みください。

<<:

>>: LLM に代わる 2 億パラメータのタイミングモデル? Googleの画期的な研究は「初心者のミス」と批判される