Wikipedia+巨大模型で幻想を破れ！スタンフォードWikiChatはGPT-4を上回り、精度は97.3%

大規模言語モデルの幻覚問題が解決されました!

最近、スタンフォード大学の研究者が、幻覚をほとんど起こさない初のチャットボットと呼ばれるWikiChatをリリースしました。

この論文はEMNLP 2023で発表され、コードはGithubでオープンソース化されました。

論文アドレス: https://aclanthology.org/2023.findings-emnlp.157.pdf

プロジェクトコード: https://github.com/stanford-oval/WikiChat

著者らによると、彼らの最高のモデルは新しいベンチマークで97.3%の事実精度を達成したが、GPT-4はわずか66.1%のスコアだったという。

「最近の」および「末尾の」知識サブセットでは、ギャップはさらに大きくなります。

さらに、著者らは検索拡張生成 (RAG) のいくつかの欠点を特定し、幻覚をさらに軽減し、「会話性」指標を改善するための重要な手順をいくつか追加しました。

これらの最適化により、WikiChat は、事実性の点で、微調整された SOTA RAG モデル Atlas を 8.5% 上回ります。

また、関連性、情報量、自然さ、非反復性、時間的正確さの点でも、大きな差をつけてリードしています。

最後に、著者は GPT-4 ベースの WikiChat を 7B パラメータの LLaMA に改良しましたが、事実の正確性に関しては依然として 91.1% という高いスコアを獲得しました。

また、実行速度が 6.5 倍速くなり、エネルギー効率が向上し、ローカルに展開できるようになります。

ビッグモデル＋ウィキペディア、一緒に幻想を打ち破ろう

周知のとおり、LLM の幻覚問題は長年にわたり根深い問題となっています。

そして、それはさまざまな大規模言語モデルにさまざまな程度の影響を与えてきました。

LLM は確率を使用して出力を推測するという原理に基づくと、幻覚の問題を完全に解決することは困難です。

研究者たちはこれに多大な労力を費やしており、私もこのWikiChatのパフォーマンスを楽しみにしています。

WikiChat は、その名前が示すように、Wikipedia の知識に基づいてトレーニングされており、非常に信頼性が高いようです。

研究チームは、論文とコードに加えて、誰でも直接会話してテストできるデモも展開しました。とても文明的です!

デモアドレス: https://wikichat.genie.stanford.edu/

だから私はWikiChatのパワーを試すのを待ちきれませんでした。

WikiChatは最初に自己紹介し、研究のために会話を記録すると述べました。

さらに、WikiChat には次の 3 つのモードがあります。

デフォルトの状態では、出力速度と精度のバランスが取られており、右側の設定で調整できます。

WikiChat には、優しい女性の声を出力する TTS 機能も追加されています。

よし、「Wikipedia で何でも聞いてみよう」！

——冗談です。あなたが中国語を知らないので、私は下手な英語力しか見せられません...

（上記の中国語の文章の音声出力をクリックしないでください。チャット全体が停止し、回復不能になる可能性があります）

次に、まず常識的な質問をしましょう。サム・アルトマンは OpenAI の CEO ですか?

実は、私は彼女がアルトマンの解雇とその後の復帰について知っているかどうかを試してみたかったのです。

しかし、「2020年にYCを離れ、OpenAIにフルタイムで参加した」という文には事実誤認が含まれているようです。

編集者はゲーム情報を使用して、次に「Genshin Impact」の「Xiao Palace」をテストします。

この回答に間違いはなく、カードプールの時間や声優も正解です。

声優の話が出たので、中国語版のCVは誰なのかも聞いてみます。

これは…どうしてそんな幻想を抱いてしまったのだろうか？実際、Wikipedia には関連情報があります。

次に、彼女に次のことを思い出してもらいます。

うわ、また間違った答えが出ました。よく考えたら、編集者はゲーム内の別のキャラクター（「女神が視界を分割する」のオペラパートを担当した、かなり有名な人物）のCVを言うべきでした。

それでは、評判の高いキャラクターをテストしてみましょう。

私はウィキペディアに別のエントリがある雷電将軍を選びました。

現在、カードプールの時間にも事実誤認がありますが、Wikipedia の関連する説明は正しいです。

WikiChatは、彼がずっと念頭に置いていた声優に対して間違った答えを返さなかった。

編集者は諦めずに、以前の問題を再度テストしました。

WikiChatも前回と同じ回答をし、反省を求めたところ「謝罪ロボット」と化した。

事実を優先するようにモードを調整します。

WikiChat は回答にかなり時間がかかりましたが、謝罪することしかできませんでした。

その後、編集者は別の百科事典のエントリで別のキャラクターに変更しました。

最初の文を除いて、残りの文は意味不明なことを言い始めます。

最後に、声優さんへの質問です（この情報は別の Wikipedia のエントリで説明されています）。

......あなたのチャットボットはどうなっていますか？Juhuahua を認識しましたか？

テストはここで終わりです。どうまとめたらいいのかわかりません。質問に何か問題があるのかもしれません。

たとえば、私の質問に関連する情報は、英語版ウィキペディアのコーパスではあまり重要ではありません。

いずれにせよ、WikiChat はいくつかの質問では優れたパフォーマンスを発揮します。たとえば、Xiao Palace の質問に ChatGPT を使用すると、関連する事実はほとんどありません。

これは、研究者が実際に LLM 幻覚問題を解決するためにいくつかの効果的な最適化手法を採用したことを示しています。

WikiChat アーキテクチャ

この研究の事実上の根拠は情報検索 (IR) であり、これはチャットボットの応答と信頼できるコーパスから取得された情報に基づいており、生成方法は取得されたデータを活用して応答を生成します。

上の画像は、WikiChat のコンポーネントと、今後公開される映画に関する会話の例を示しています。

応答を生成するために実行される手順は次のとおりです。

1. Wikipediaから取得するためのクエリを生成する。

2. 取得した文章を要約してフィルタリングする。

3. LLMからの応答を生成する。

4. LLMレスポンスから宣言を抽出し、

5. 取得した証拠を使用してLLMの回答の主張を事実確認する。

6. 回答書の作成

7. 応答を改善する。

研究者はユーザーの談話を利用して、LLM が認識していない可能性のある情報を取得し、LLM に応答を要求し、事実確認を行います。

LLM の幻覚を止めるのは簡単ではありません。一般的に、IR が関連情報を取得できない場合、または知識コーパスに関連情報がない場合、LLM は不足を補うために幻覚を作成します。

したがって、WikiChat は応答を直接生成するのではなく、取得した情報を集約してフィルタリングします。

ここでは、LLM によって生成された各ステートメントを個別にファクトチェックし、必要に応じて「わかりません」と言うようにシステムに教えます。

LLM に時間的な文脈を理解できるように教えます。たとえば、テキスト内の未来時制は、会話内の過去の出来事を指している場合があります。

最も重要なのは、これらの必要な手順を放棄して時期尚早に速度を最適化せず、代わりにモデルの蒸留に依存して、高品質が達成されるまでレイテンシを削減することです。

上図のパイプラインの各ステージは、コンテキスト学習を使用して実装されています。

結果として得られるパイプラインは、特定のコーパスに固有のものではありません。この記事では、Wikipedia にパイプラインを適用して WikiChat を作成していますが、個人情報や会社の機密情報を含む、あらゆるフリーテキストコーパスに適用できます。

このパイプラインも特定の LLM に固有のものではなく、著者らはこの論文でこれを 3 つの異なる LLM に適用しています。

会話の文脈に正確かつ関連性のある情報をキュレートする

LLM は、ユーザーの発話を解釈し、検索の範囲外の応答を作成したり、複数のソースから情報を集約したり、次のような結論を導き出す必要があります。

ユーザー: Apple は今後もテクノロジー業界の主要プレーヤーであり続けると思いますか?

GPT-4: はい、Apple は優れたイノベーションの実績、忠実な顧客基盤、そして堅固な財務状況を備えています。時価総額が2兆ドルを超える世界で最も価値のある企業。拡張現実、人工知能、自動運転車などの新しいテクノロジーを探求し続けます。これにより、競争で優位に立つことができます。

しかし、LLM を完全に信頼することはできず、その出力を事実確認する必要があります。さらに、LLM は最近の出来事を認識していません。

ユーザーとの会話中に、WikiChat は外部情報にアクセスする必要があることを認識します。これは、最後のユーザー発話に直接的な質問（「ステフィン・カリーとは誰ですか？」など）が含まれていたか、完全に答えるには追加情報が必要だった（「私はステフィン・カリーが本当に好きです」など）ことが原因である可能性があります。

フェーズ 1 では、WikiChat はプロンプトを通じてユーザーの興味を引く検索クエリを生成します (下の図を参照)。著者らは、既存のシステムは時間的状況に適応するのが特に難しいことを発見した。

WikiChat はクエリとともにユーザーのニーズの推論時間を生成します。クエリ時間は、最近、年=yyyy、なしのいずれかになります。それぞれ、取得される情報は可能な限り最新、特定の年、または時間は重要ではないことを示します。

クエリは情報検索システムに送信され、コーパスから関連するパッセージが取得され、上位ランクの結果が時制情報に従って再ランク付けされ、N 個のパッセージが取得されます。

第 2 段階では、これらの段落には関連する部分と関連しない部分が混在している可能性があるため、WikiChat は取得した段落の関連部分を抽出し、関連しない部分を除外しながら重要なポイントに要約します (下の図を参照)。

フェーズ 3 では、LLM に会話履歴に対する応答を生成するように求められます。このような回答には興味深く関連性のある知識が含まれていることが多いですが、本質的に信頼性が低いものです。

ステージ 4 では、LLM 応答が複数のステートメントに分解されます (下の図を参照)。このステージでは、共通の参照を解決してあいまいさを減らし、相対的な時間情報 (「現在」や「昨年」など) を解決して、すべてのステートメントを自己完結型にします。

次に、IR を使用して、各主張の証拠として知識コーパスから証拠段落を取得し、時間ベースの再ランク付けを使用して、時間に敏感なトピックをより適切に処理します。

ステージ 5 では、検証プロンプト (下の図を参照) が思考チェーンプロンプトを使用して、各主張を 3 つのカテゴリのいずれかに割り当てます。取得された証拠が主張を裏付けるか、主張を反証するか、またはこの決定を下すには証拠の情報が不十分であるかです。証拠によって裏付けられた主張のみが保持されます。

収集した情報を使用して対応策を策定する

実験により、すべての会話基準を満たしながら最終的な応答を一度に書くことは、コンテキスト学習にとって難しいことが示されています。特に、コンテキストの長さが限られているため、必要なすべての側面をカバーするために、少数の例として十分なマルチターンのダイアログを提供することが困難であるためです。したがって、ここでは 2 段階のアプローチが採用されています。

ステージ 6 では、WikiChat は指定されたポイントのリストと会話履歴に基づいて応答ドラフトを生成します。

フェーズ 7、フィードバックを生成して最適化する – 関連性、自然さ、非反復性、および時間的正確性に基づいた応答。

フィードバックには、各基準に対するモデルの推論と、各基準に対する 0 ～ 100 のスコアが含まれており、このフィードバックに基づいて改良が行われます。

改善は、思考の連鎖として、このフィードバックとスコアに基づいて行われます。

最後に、WikiChat の効果を見てみましょう。

上記の表は、WikiChat での評価結果とシミュレートされた会話のベースラインを示しています。事実と時間の正確さはパーセンテージで表され、その他の指標は 1 から 5 までの整数の平均です。

事実の正確さは人間による評価から得られ、その他の指標は小規模サンプルの GPT-4 から得られます。すべての指標において、高いほど良いです。

<<:

>>: AIが地震の前兆信号を識別？機械学習がデータ内の不思議な相関関係を発見、人類に地震予測の希望を与える