長文情報の精度はChatGPTを上回る、Metaは大規模モデルの幻覚を軽減する新手法を提案

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

大型モデルの錯視問題に対する新しい解決策があります!

Meta AI Lab は「分割統治」ソリューションを提案しました。

このソリューションにより、 Llama-65B が出力する情報の精度は 2 倍になり、 ChatGPT を上回りました。

いわゆるビッグモデル錯覚とは、一見合理的に思えるが完全に間違ったコンテンツを出力することです。

今回Metaが提案した「Verification Chain（CoVe）」は、「Chain of Thought（CoT）」に似たチェーン方式です。

違いは、「ステップバイステップ」の思考チェーンは論理的推論に重点を置いているのに対し、検証チェーンは事実情報に重点を置いていることです。

これを読んだネットユーザーの中には、この検証チェーンがChatGPTでコードを書くときの科学的手法と非常に似ていることに気づいた人もいました。

では、「検証チェーン」方式とは具体的にどのようなもので、何が「検証」されているのでしょうか?

答えを分解し、分割して征服する

検証チェーンの中心的な考え方は、検証対象となるコンテンツの大きなセクションを小さな質問に分解することです。具体的なプロセスは次のとおりです。

まず、モデルは、ユーザーからの質問に基づいて通常どおり応答を生成します。

次に、生成された応答内容に基づいて、その中の各情報に対する一連の検証質問が生成されます。

次に、モデルはこれらの質問に独自に回答し、その結果に基づいて最初の回答を調整して最終結果を取得します。

簡単な例として、19 世紀の米墨戦争の主な原因は何であったかをモデルに尋ねたいとします。

モデルは、イベントがいつ発生したか、その前に何が起こったかを回答します。

次に、これらの出来事がいつ起こったかを一つずつ尋ねます。

その結果、モデルは言及した項目の 1 つが時間的に遠すぎることを発見し、調整して最終的な答えを出したのです。

その中で、質問の生成と検証は最も重要なリンクです。この目的のために、研究者は4つの具体的な方法を提案しました。

ジョイント、つまり、質問と回答を生成するための指示を同じプロンプトワードに書き込む
2ステップでは、まずモデルに質問を生成させ、次に提起された質問に答えるために新しい会話（1回限り）を開始します。
2ステップに基づくファクタリングは、提起された質問ごとに新しい対話を開きます。
Factor+ReviseはFactoredに基づいて一貫性チェックを追加し、モデルが矛盾したコンテンツに焦点を当てることを可能にします。

これら 4 つのモデルはますます詳細化しており、精度もますます高くなっています。

△ 赤から始まり、4つの色は、No CoVe、Joint、Factored、Factor+Reviseを表します。

では、質問を分割するとなぜモデルの精度が向上するのでしょうか?

まず、細分化された質問は、全体のタスクよりも簡単です。エッセイの質問は、質問と回答、または複数の選択肢や真偽の質問になります。質問はより単純になり、正確率が向上します。

さらに、問題を細分化することで、モデルは間違った答えを何度も繰り返すのではなく、実際に再考できるようになります。

では、検証チェーン方式の効果は何でしょうか?

情報の正確さはChatGPTを上回る

この問題を探るために、研究者らはLlamaを使用して3つのテストタスクからなるテストを実施しました。

最初のステップは、特定の場所で生まれた有名人や特定の業界で働いていた有名人などの情報をリストすることです。

このタスクでは、研究者は、より単純な Wikidata とより難しい Wiki-Category リスト (Wikipedia から抽出) の合計 2 つのデータセットをテストしました。

結果によると、2 段階認証チェーンのサポートにより、650 億のパラメータを持つ Llama の精度は、単純な問題では 0.17 から 0.36 に2 倍以上に向上し、複雑な問題でも精度がほぼ 2 倍になりました。

次は「クローズドドメインの質問応答」問題です。研究者は、MultiSpanQAデータセットから複数の不連続な情報を抽出して質問しました。

たとえば、「世界初の出版社を設立したのは誰ですか、何年ですか？」（答えはヨハネス・グーテンベルク、1450年）。

その結果、Cove は Llama の精度を約 20% 向上させました。

3 番目のタスクは「長文の伝記生成」です。質問は「（名前）の経歴を教えてください」で、評価には FactScore データセットが使用されます。

その結果、Factor+Reviese モードでは、検証チェーンなしモードに比べて精度が大幅に向上するだけでなく、 ChatGPT を上回ります。

この研究に興味のある方は、論文で詳細を読むことができます。

論文アドレス: https://arxiv.org/abs/2309.11495

<<:

>>: 技術革命は初期の成果を達成した：AIはサプライチェーン管理の分野で2つの地位を獲得した

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

ブログ

AIと自動化でコンプライアンスコストを削減する5つの方法

ブログ

ロボットセンサー市場は2026年までに40億ドルを超える

ブログ

Google 研究者: AI が優秀すぎて「ラインを落とした」

ブログ

人工知能の時代において、ロボットを超える子どもたちが身につけるべき能力とは何でしょうか？

ブログ

アリババ副社長でDAMOアカデミーの自動運転部門責任者の王剛氏が辞任し、自身のビジネスを立ち上げる予定

ブログ

ロボティックプロセスオートメーション (RPA): 6 つのオープンソースツール

ブログ

長文情報の精度はChatGPTを上回る、Metaは大規模モデルの幻覚を軽減する新手法を提案

答えを分解し、分割して征服する

情報の正確さはChatGPTを上回る

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIと自動化でコンプライアンスコストを削減する5つの方法

ロボットセンサー市場は2026年までに40億ドルを超える

Google 研究者: AI が優秀すぎて「ラインを落とした」

人工知能の時代において、ロボットを超える子どもたちが身につけるべき能力とは何でしょうか？

アリババ副社長でDAMOアカデミーの自動運転部門責任者の王剛氏が辞任し、自身のビジネスを立ち上げる予定

ロボティックプロセスオートメーション (RPA): 6 つのオープンソースツール

推薦する

役に立つヒント | 複数の事前トレーニング済みビジョンモデルの転移学習

Google、視覚障害者が世界を見るのを助けるAIメガネを開発

ノーベル賞を予約しますか? DeepMind の創設者が「ノーベル賞」ラスカー賞を受賞、AlphaFold が「科学のための AI」のベンチマークに

中飛愛威CEO曹飛氏：自動化からインテリジェンスへ、ドローン検査をよりスマートに

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

AI 開発者の高額給与は魅力的すぎるでしょうか?国内の開発者がAIに変革するためのガイドをぜひご利用ください

米国が中国へのAIソフトウェア輸出制限を発表、ドローンと自動運転が最初に影響を受ける

50%-70%スリムダウン、Ctrip Taroミニプログラムサイズ削減計画

キッシンジャー：今やAIは人間が世界を理解するための第3の方法となっている

これら5つのコアテクノロジーを理解すれば、人工知能はもうあなたの身近な存在に

近い将来、人工知能は多くの人々の仕事を置き換えることになるだろう