この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 大型モデルの錯視問題に対する新しい解決策があります! Meta AI Lab は「分割統治」ソリューションを提案しました。 このソリューションにより、 Llama-65B が出力する情報の精度は 2 倍になり、 ChatGPT を上回りました。 いわゆるビッグモデル錯覚とは、一見合理的に思えるが完全に間違ったコンテンツを出力することです。 今回Metaが提案した「Verification Chain(CoVe)」は、「Chain of Thought(CoT)」に似たチェーン方式です。 違いは、「ステップバイステップ」の思考チェーンは論理的推論に重点を置いているのに対し、検証チェーンは事実情報に重点を置いていることです。 これを読んだネットユーザーの中には、この検証チェーンがChatGPTでコードを書くときの科学的手法と非常に似ていることに気づいた人もいました。 では、「検証チェーン」方式とは具体的にどのようなもので、何が「検証」されているのでしょうか? 答えを分解し、分割して征服する検証チェーンの中心的な考え方は、検証対象となるコンテンツの大きなセクションを小さな質問に分解することです。具体的なプロセスは次のとおりです。 まず、モデルは、ユーザーからの質問に基づいて通常どおり応答を生成します。 次に、生成された応答内容に基づいて、その中の各情報に対する一連の検証質問が生成されます。 次に、モデルはこれらの質問に独自に回答し、その結果に基づいて最初の回答を調整して最終結果を取得します。 簡単な例として、19 世紀の米墨戦争の主な原因は何であったかをモデルに尋ねたいとします。 モデルは、イベントがいつ発生したか、その前に何が起こったかを回答します。 次に、これらの出来事がいつ起こったかを一つずつ尋ねます。 その結果、モデルは言及した項目の 1 つが時間的に遠すぎることを発見し、調整して最終的な答えを出したのです。 その中で、質問の生成と検証は最も重要なリンクです。この目的のために、研究者は4つの具体的な方法を提案しました。
これら 4 つのモデルはますます詳細化しており、精度もますます高くなっています。 △ 赤から始まり、4つの色は、No CoVe、Joint、Factored、Factor+Reviseを表します。 では、質問を分割するとなぜモデルの精度が向上するのでしょうか? まず、細分化された質問は、全体のタスクよりも簡単です。エッセイの質問は、質問と回答、または複数の選択肢や真偽の質問になります。質問はより単純になり、正確率が向上します。 さらに、問題を細分化することで、モデルは間違った答えを何度も繰り返すのではなく、実際に再考できるようになります。 では、検証チェーン方式の効果は何でしょうか? 情報の正確さはChatGPTを上回るこの問題を探るために、研究者らはLlamaを使用して3つのテストタスクからなるテストを実施しました。 最初のステップは、特定の場所で生まれた有名人や特定の業界で働いていた有名人などの情報をリストすることです。 このタスクでは、研究者は、より単純な Wikidata とより難しい Wiki-Category リスト (Wikipedia から抽出) の合計 2 つのデータセットをテストしました。 結果によると、2 段階認証チェーンのサポートにより、650 億のパラメータを持つ Llama の精度は、単純な問題では 0.17 から 0.36 に2 倍以上に向上し、複雑な問題でも精度がほぼ 2 倍になりました。 次は「クローズドドメインの質問応答」問題です。研究者は、MultiSpanQAデータセットから複数の不連続な情報を抽出して質問しました。 たとえば、「世界初の出版社を設立したのは誰ですか、何年ですか?」(答えはヨハネス・グーテンベルク、1450年)。 その結果、Cove は Llama の精度を約 20% 向上させました。 3 番目のタスクは「長文の伝記生成」です。質問は「(名前)の経歴を教えてください」で、評価には FactScore データセットが使用されます。 その結果、Factor+Reviese モードでは、検証チェーンなしモードに比べて精度が大幅に向上するだけでなく、 ChatGPT を上回ります。 この研究に興味のある方は、論文で詳細を読むことができます。 論文アドレス: https://arxiv.org/abs/2309.11495 |
>>: 技術革命は初期の成果を達成した:AIはサプライチェーン管理の分野で2つの地位を獲得した
この記事では、Keras Tensorflow 抽象ライブラリに基づく転移学習アルゴリズム モデルを...
海外メディアの報道によると、オランダの新興企業EnvisionはGoogle Glassと提携し、視...
9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました!ラスカー賞には、基礎医学研究賞...
[51CTO.comよりオリジナル記事] 農業、電力、航空写真撮影など、多くの分野でドローンが活躍す...
[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...
著者注: AI関連のニュースを閲覧すると、「高給」「年収100万ドル」など、非常に魅力的な言葉が頻繁...
2020年が到来。テクノロジー規制は改善されたのでしょうか? [[311882]]空想を捨てなさい。...
著者についてCtrip のフロントエンド開発者である Can は、現在ミニプログラムの開発に従事して...
2023年、ChatGPTは人工知能に対する世界的な注目を集めました。科学界、知識人界、産業界は、A...
人工知能は現在最も注目されている産業であり、将来的にはロボット、スマートセンサー、ウェアラブルデバイ...
清華大学金融学科教授の李道奥氏は、ハーバード大学で経済学の博士号を取得。スタンフォード大学フーバー研...