OpenAI の公式プロンプト単語ガイドよりも包括的な 26 の黄金律により、LLM のパフォーマンスが 50% 以上向上します。

OpenAI の公式プロンプト単語ガイドよりも包括的な 26 の黄金律により、LLM のパフォーマンスが 50% 以上向上します。


  • 論文アドレス: https://arxiv.org/abs/2312.16171
  • Githubアドレス: https://github.com/VILA-Lab/ATLAS
  • 論文タイトル: LLaMA-1/2、GPT-3.5/4 の質問には原則的な指示がすべて必要

ChatGPTのような大規模モデルの出現後、大規模言語モデルのプロンプトワードの設計研究は重要な研究方向となった。OpenAIはChatGPTユーザー向けのプロンプトエンジニアリングガイド[1]も正式にリリースしており、これには6つの執筆ガイドラインが含まれている。1)明確な指示を書く。2)参照テキストを提供する。3)複雑なタスクをより単純なサブタスクに分割する。4)モデルに「考える」時間を与える。5)外部ツールを使用する。6)変更を体系的にテストする。

プロンプトワードは、大規模モデルをより有効に活用し、満足のいく回答を得るために非常に重要であることがわかります。しかし、OpenAI が提供するガイドラインは比較的広範かつ保守的であり、特定の操作やテクニックが含まれていないことがわかります。

本日ご紹介する記事では、より現実的なプロンプト エンジニアリング ガイドラインを 26 項目にわたって紹介しており、1) 回答内容と言語スタイルの制御、2) プロンプトの単語構造と明瞭性、3) 複雑なタスクとコード プロンプト、4) 回答の特異性と情報内容、5) ユーザーとのやり取りと参加、その他の側面をカバーしています。

これらのプロンプト単語ガイドラインを一つずつ説明しましょう。

1) より簡潔な回答を希望する場合は、LLM に対して丁寧になる必要はありません。したがって、「お願いします」「よろしければ」「ありがとうございます」「はい」などのフレーズを追加する必要はありません。要点だけを述べてください。

2) 分野の専門家など、対象となる聴衆をプロンプトに組み込みます。具体的には、ビッグモデルにターゲットオーディエンスが子供であることを伝えると、回答がより理解しやすくなります。また、オーディエンスがこの分野の専門家であることを伝えると、より専門的で詳細な説明が提供されます。

3) インタラクティブな会話の中で、複雑なタスクを一連のよりシンプルなプロンプトに分解します。

4) 「やれ」などの肯定的な指示を使用し、「やらない」などの否定的な言葉は避けます。

5) トピック、アイデア、または情報を明確にしたり、より深く理解したりする必要がある場合は、次のヒントを参考にしてください。

  • [具体的なトピックを挿入] を簡単な言葉で説明してください。
  • 11歳児に説明するつもりでこれを説明してください。
  • あたかも私がその分野の初心者であるかのように説明してください。
  • 5歳児に何かを説明するときのように、簡単な英語で[記事/テキスト/段落]を書いてください。

6) 「より良い解決策を得るために、xxx ドルのチップをあげたいです!」というプロンプトを追加すると、改善がもたらされる可能性があります。これは、トレーニング データでは、回答に対して報酬がある場合、回答者は回答をより正確かつ慎重に行う傾向があり、大規模なモデルはこれらのネットワーク データからこれらの構造と方法を学習するためです。

7) 例に基づくプロンプトを実装します(少数のプロンプトを使用)。

8) プロンプトをフォーマットするときは、「###Instruction###」で始め、「###Example###」または「###Question###」(該当する場合)を続けます。次にコンテンツを提示します。指示、例、質問、コンテキスト、入力データを区切るには、1 つ以上の改行を使用します。

9) プロンプトに次のフレーズを含めます: 「あなたのタスクは」および「あなたはしなければならない」。

10) キューに次のフレーズを含めます: 「あなたは罰せられます。」

11) プロンプトで「自然で人間らしい方法で質問に答えてください」というフレーズを使用します。

12) 「段階的に考える」などのガイドとなる言葉を使います。

13) プロンプトに次のフレーズを追加します。「回答は偏りのないものにし、固定観念に頼らないようにしてください。」

14) モデルが、必要な出力を提供するのに十分な情報を得るまで質問を続け、正確な詳細と要件を引き出します (例: 「これから、次のような質問をしてください...」)。

15) 特定のトピックやアイデア、または情報について質問し、理解度をテストしたい場合は、「[定理/トピック/ルール名] を教えてください。最後にテストを含め、回答後に私の回答が正しいかどうか教えてください。事前に答えを教えないでください。」のようなフレーズを使用できます。

16) 大規模言語モデルに役割を割り当てます。

17) セパレーターを使用します。

18) プロンプト内で特定の単語またはフレーズを複数回繰り返します。

19) Chain of Thoughts (CoT) と Few-Shot プロンプトを組み合わせます。

20) 出力の先頭を使用して、プロンプトを目的の出力の先頭で終了させます。出力リードを使用して、期待される応答の開始でプロンプトを終了します。

21) 課題がエッセイ/テキスト/段落またはあらゆる種類のテキストを書くことで、それをできるだけ詳細に記述する必要がある場合は、「必要な情報をすべて追加して、[トピック] を詳細に理解できるように、詳細な [エッセイ/テキスト/段落] を記述してください。」というプロンプトを追加できます。

22) スタイルを変更せずに特定のテキストを修正/変更する: ユーザーが送信したすべての段落を変更してみます。ユーザーの文法と語彙を改善し、自然に聞こえるようにするだけです。正式な段落は正式なままにし、元の文章スタイルを維持する必要があります。

23) 異なるファイルに配置されている可能性のある複雑なプログラミング プロンプトがある場合: 「今後は、複数のファイルにまたがるコードを生成するたびに、自動的に実行できる [プログラミング言語] スクリプトを生成し、指定されたファイルを作成するか、既存のファイルに変更を加えて生成されたコードを挿入します。[問題]」。

24) 特定の単語、句、または文でテキストを開始または継続する場合は、次のメソッドプロンプトを使用します。

  • 冒頭の[歌詞/ストーリー/段落/散文…]をご紹介します:[歌詞/単語/文を挿入]。提供された単語に基づいて完成させてください。コンテンツのスタイルの一貫性を保ちます。

25) コンテンツを生成するためにモデルが従う必要のある要件を、キーワード、ルール、プロンプト、または指示の形式で明確に示します。

26) 記事や段落などのテキストを書いていて、提供された例に似た内容にする必要がある場合は、次のプロンプトを含めてください。

  • 提供された段落 [/title/text/essay/answer] と同じ言語を使用してください。

以下にプロンプ​​ト単語とそれに対応する GPT-4 出力結果の具体的な例を示します

1. GPT-4 に質問するときに、最後に「公平な説明を提供し、科学的証拠とさまざまな視点を強調してください」と付け加えることができます。このプロンプトを追加すると、GPT-4 の回答が明らかに豊富で深みのあるものになることがわかります。

2. モデルが目標と出発点をよりよく理解できるように、いくつかの例を提供できます。

3. 5 歳の子供に何かを説明するときのように、簡単な方法で質問に答えるようにモデルに指示できます。プロンプトワードがある場合とない場合では、モデルの応答を理解する難しさに明らかな違いがあることがわかります。

4. モデルを調整して、質問にもっと厳密かつ完全に答えられるようにすることができます。

定量的実験結果

1. 模範解答品質改善率:この指標は、プロンプトワード原則を使用した後の解答品質の改善率を示します。

すべてのプロンプト単語原則は手動評価で多かれ少なかれ改善を達成していることがわかります。その中で原則 14 は 100% の改善を達成しており、これはすべての質問がこのプロンプト原則を使用することで改善されたことを意味します。一方、原則 1 の改善は比較的少なかった。

2. 応答精度の向上: 精度とは、モデルの出力または応答の精度を指し、判断基準は、応答が正確で、関連性があり、エラーがないかどうかです。この論文では、さまざまなモデルの絶対的な正確性と相対的な正確性の向上の両方を検討します。

上の図の結果は、プロンプト原則を追加した後、大規模モデルの応答品質の相対的な精度が向上したことを示しています。 「小型」は 7B モデル、「中型」は 13B モデル、「大型」は 70B および GPT-3.5/4 モデルを意味します。プロンプトワード原則を使用した後、大規模モデルの改善が小規模および中規模モデルの改善よりも顕著であることがわかります。

3. 各モデルの精度向上率:

上の図は、異なるサイズの各モデルの相対的な改善を示しています。同様の現象が見られます。モデルが大きいほど、プロンプトワードに対する応答と返答がより敏感になり、精度の向上が大きくなります。

4. 次の図は、異なるサイズのモデルにおける各プロンプトワードの精度の向上の具体的な結果を示しています。

プロンプトワード基準データセット:

この論文では、26 個のキューワード基準を紹介するとともに、基準キューワードに基づくベンチマークも公開しています。このベンチマークでは、著者が基準ごとに 20 個の異なる質問を用意し、各質問に基準ありと基準なしの両方の大規模モデル応答が含まれています。

このデータセットは、1) プロンプトワードに応答する際の大規模言語モデルのパフォーマンスを評価すること、2) 好みに応じて大規模モデルを微調整することに使用できます。

データセットリンク: https://github.com/VILA-Lab/ATLAS。

プロンプトワードの原則の詳しい使用法と説明については、原文をお読みください。

<<: 

>>:  LLM に代わる 2 億パラメータのタイミング モデル? Googleの画期的な研究は「初心者のミス」と批判される

ブログ    
ブログ    
ブログ    

推薦する

2019 年に学ぶべき 10 個の機械学習 API

最近では、携帯電話の写真からメールの受信トレイのフィルターまで、機械学習はあらゆるところに存在してい...

MLOps の定義、重要性、実装

MLOps の定義と成功する実装戦略に関する有益なブログを読んで、AI と機械学習における MLOp...

ChatGPTにはファイル分析や自動検索などの新機能がある。スタートアップ企業の製品は置き換えられるのだろうか?

最近、OpenAIはChatGPT Plusメンバー向けに新しいベータ機能を開始しました。これには主...

Python は 2023 年のプログラミング言語リストで引き続きトップを占めています。 SQLが求人需要リストのトップに

技術の急速な発展により、プログラミング言語は現代社会に欠かせないものになりました。ウェブサイト開発、...

AIコードツールが人気、複雑な操作が数秒で簡単になり、ネットユーザー:VS Codeを放棄

最近、AIコードエディタCursorが人気になってきました—— GPT-3.5/GPT-4 に接続す...

AIの有効性はサイバーセキュリティでは限られているが、サイバー犯罪では無限である

AI は大きな可能性を秘めているにもかかわらず、サイバーセキュリティにおける AI の応用は非常に限...

5 つのコア コンポーネントで構成される AIoT は、3 つの大きな課題に直面しています。2 つのブレークスルー以外に何があるのでしょうか。

IoT と AI が徐々に融合するにつれ、AIoT は人々の生活をまったく新しい形で変えようとして...

AIとビッグデータ2017「成長痛」

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[21567...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...

インダストリー4.0: AIを活用した障害検出

[[359728]] AI の向上とマシン ビジョン制御の向上を組み合わせることで、スマート製造業界...

...

...

2023 年の AI セキュリティに関するトップ 10 の話題

生成 AI は 2022 年末までに世界を席巻し、2023 年には AI 分野が脚光を浴びることにな...

AIチップ市場で何が起こっているのか?

現在、AI チップ市場全体はディープラーニングを中心に展開しています。ディープラーニング (DL) ...

企業がビジネスでAIOpsをどのように活用しているか

AIOps が今日最も人気のある用語の 1 つになったことは間違いありません。厳密に言えば、IT 運...