GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

人工知能の分野における最新の開発では、人工的に生成されたプロンプトの品質が、大規模言語モデル (LLM) の応答精度に決定的な影響を及ぼします。 OpenAI が提供するアドバイスによれば、これらの大規模言語モデルのパフォーマンスには、正確で詳細かつ具体的な質問が重要になります。しかし、一般ユーザーは自分の質問が LLM にとって十分に明確であることを保証できるでしょうか?

特定の状況における人間の自然な理解能力と機械の解釈との間には大きな違いがあることは注目に値します。たとえば、「偶数月」という概念は、人間にとっては明らかに 2 月や 4 月などの月を指しますが、GPT-4 はこれを偶数日数の月と誤解する可能性があります。これは、日常の文脈を理解する上での AI の限界を明らかにするだけでなく、これらの大規模な言語モデルとより効果的にコミュニケーションする方法についても考えるよう促します。人工知能技術の継続的な進歩に伴い、言語理解における人間と機械の間のギャップをどのように埋めるかが、今後の研究課題となっています。

これを受けて、カリフォルニア大学ロサンゼルス校（UCLA）のQuanquan Gu教授率いる総合人工知能研究所は、質問理解における大規模言語モデル（GPT-4など）の曖昧性問題に対する革新的な解決策を提案する研究報告書を発表しました。この研究は、博士課程の学生であるDeng Yihe氏、Zhang Weitong氏、Chen Zixiang氏によって実施されました。

論文アドレス: https://arxiv.org/pdf/2311.04205.pdf
プロジェクトアドレス: https://uclaml.github.io/Rephrase-and-Respond

このソリューションの中核は、大規模な言語モデルに質問を繰り返して拡張させ、回答の精度を向上させることです。研究では、GPT-4 によって言い換えられた質問はより詳細になり、質問の形式もより明確になったことがわかりました。この再話と拡張の方法により、モデルの回答精度が大幅に向上しました。実験によれば、質問をよく繰り返すと、回答の精度が当初の 50% からほぼ 100% に向上することがわかっています。このパフォーマンスの向上は、大規模な言語モデルの自己改善の可能性を示すだけでなく、人工知能が人間の言語をより効果的に処理および理解する方法についての新たな洞察も提供します。

方法

上記の調査結果に基づいて、研究者はシンプルだが効果的なプロンプト「質問を言い換えて拡張し、応答してください」（RaRと略記）を提案しました。このプロンプトワードは、LLM の質問に対する回答の質を直接向上させ、問題処理における重要な改善を示しました。

研究チームはまた、GPT-4のような大規模モデルの問題を繰り返す能力を最大限に活用するために、「2段階RaR」と呼ばれるRaRの変種を提案した。このアプローチは 2 つのステップに従います。まず、特定の質問に対して、専用の Rephrasing LLM を使用して言い換えられた質問が生成されます。次に、元の質問と言い換えられた質問が組み合わされて、Responding LLM に回答を促します。

結果

研究者らがさまざまなタスクで行った実験では、(ワンステップ) RaR と 2 ステップ RaR の両方が、GPT4 の回答の精度を向上させるのに一貫した有効性を示したことが示されました。注目すべきは、もともと GPT-4 にとって非常に困難だったタスクにおいて、RaR が大幅な改善を示し、場合によってはほぼ 100% の精度に達したことです。これに基づいて、研究チームは次の 2 つの重要な結論をまとめました。

1. Retell and Expand (RaR) は、さまざまなタスクで LLM のパフォーマンスを効果的に向上できるプラグアンドプレイのブラックボックスヒント方式を提供します。

2. 質問応答（QA）タスクにおける LLM のパフォーマンスを評価する場合、質問の品質を調べることが重要です。

さらに、研究者らは Two-step RaR を使用して、GPT-4、GPT-3.5、Vicuna-13b-v.15 などのさまざまなモデルのパフォーマンスを調査しました。実験結果によると、GPT-4 などのより複雑なアーキテクチャとより強力な処理機能を備えたモデルの場合、RaR メソッドによって問題処理の精度と効率が大幅に向上します。 Vicuna などのより単純なモデルの場合、改善は小さくなりますが、それでも RaR 戦略の有効性が証明されます。これに基づいて、研究者らは異なるモデルで再話後の質問の質をさらに調査しました。言い換え問題のより小規模なモデルでは、質問の意図を混乱させることが時々可能です。 GPT-4 などの高度なモデルは、多くの場合、人間の意図とより一致するように言い換えられた質問を提供し、他のモデルの回答を強化できます。

この発見は重要な現象を明らかにしています。異なるレベルの言語モデルによって繰り返される質問の質と有効性には違いがあるということです。特に GPT-4 のような高度なモデルの場合、質問を言い換えることで、問題自体をより明確に理解できるだけでなく、他の小規模なモデルのパフォーマンスを向上させるための効果的な入力としても役立ちます。

Chain of Thought (CoT)との違い

RaR と Chain of Thought (CoT) の違いを理解するために、研究者らは数学的定式化を提案し、RaR が CoT と数学的にどのように異なるのか、またどのように簡単に組み合わせることができるのかを明らかにしました。

この研究はまた、モデルの推論能力を強化する方法を詳しく検討する前に、モデルの推論能力が適切に評価されるように質問の質を向上させる必要があることを示唆しています。たとえば、「コイン投げ」問題では、人間の意図とは異なり、GPT-4 は「flip」という単語をランダムに投げる動作として理解していることがわかりました。モデルが「ステップごとに考えてみましょう」を使用して推論するように誘導されると、この誤解は推論プロセスにまだ存在します。大規模言語モデルは、質問を明確にした後にのみ、意図した質問に応答します。

さらに研究者らは、質問文に加えて、Few-shot CoT に使用された質問応答の例も人間によって書かれたものであると指摘しました。ここで疑問が浮かび上がります。人工的に構築されたこれらの例に欠陥があった場合、大規模言語モデル (LLM) はどのように反応するのでしょうか?この研究は興味深い例を示しており、質の低い少数ショットの CoT の例が LLM に悪影響を及ぼす可能性があることを発見しました。たとえば、「End Letter Connection」タスクでは、以前に使用した問題例がモデルのパフォーマンスの向上にプラスの効果を示しました。しかし、プロンプトのロジックが、たとえば最後の文字の検索から最初の文字の検索に変更されると、GPT-4 は間違った答えを返しました。この現象は、モデルが人工的な例に対して敏感であることを浮き彫りにします。

研究者たちは、RaR を使用することで、GPT-4 が特定の例の論理的な欠陥を修正し、それによって少数ショットの CoT の品質と堅牢性を向上させることができることを発見しました。

結論は

人間と大規模言語モデル (LLM) 間のコミュニケーションでは誤解が生じる可能性があります。つまり、人間には明確に思える質問でも、LLM にとっては別の意味に理解される可能性があります。 UCLA の研究チームはこの疑問に基づいて新しい方法 RaR を提案し、LLM はこれに答える前に疑問を言い直して明確にする必要がありました。

一連のベンチマークデータセットでの RaR の実験的評価により、そのアプローチの有効性が確認されています。さらに分析を進めると、言い換えによって得られた質問の質の向上はモデル間で転送可能であることが示されました。

今後は、RaR などの手法の継続的な改善と、CoT などの他の手法との統合により、人間と大規模言語モデル間のより正確で効率的なやり取りが可能になり、最終的には AI の説明および推論能力の限界が押し上げられることが期待されます。

<<: 1 分で新しい GPT が作成されます。カスタマイズされたGPTは3日以内に爆発的に普及し、理想のボーイフレンドや科学研究ツールがインターネット上に溢れかえった

>>: スタンフォード大学は対照的嗜好学習を提案：強化学習なしで人間のフィードバックから学習する