マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

大規模なマルチモーダルモデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?

例えば、下の写真では、モデルはオレンジ色のコーギーを「赤い犬」と勘違いし、周囲に他にも数匹いることを指摘しています。

写真

現在、USTC による調査で新たなアプローチが提案されています。

再トレーニングを必要とせず、プラグアンドプレイのユニバーサルアーキテクチャ。モデルによって与えられた誤ったテキストから直接開始し、可能性のある「幻覚」を「逆転」させてから、画像で事実を確認し、最終的に直接修正を完了します。

彼らはこの方法を「ウッドペッカー」と名付けました。

写真

最初に木のワームホールを見つけて、その中のワームを食べる、いわゆる「森の医者」と同じように、この記事で提案されている「キツツキ」も、マルチモーダルな大規模モデルの「幻覚」医者であり、最初に問題を診断し、次にそれらを一つずつ修正することができます。

結果は「医療技術は確かに優れている」であり、成功すれば次のようになります。

（１）MiniGPT-4の精度は54.67％から85.33％に向上した。

（２）mPLUG Owの精度は62％から86.33％に向上した。

下の図に示すように、検出が難しいさまざまな小さな物体や複雑なカウントのシナリオに対応できます。

写真

それで、具体的にはどのように診断されるのでしょうか?

マルチモーダル LLM 幻覚の治療のための「ウッドペッカー法」

現在、大規模モデルの幻覚問題に対する業界の解決策は、基本的に特定のデータを使用して指示を微調整することです。

たとえば、一部の大規模マルチモーダルモデル (MLLM) は、質問に答えるときに常に肯定的な回答を出す傾向があります (たとえば、ハゲの人の写真を見せられて、その人の髪の色を尋ねられた場合、即座に「黒」と答えます)。モデルに否定的なサンプルを含むデータを入力すると、「何もないところから何かを作り出す」という錯覚を解消し、存在しないものに遭遇したときに「いいえ」と言うようにすることができます。

指示を微調整するだけでなく、アーキテクチャの調整も行われます。いずれにしても、新しいモデルを再トレーニングする必要があります。

この記事で提案する「Woodpecker」フレームワークは、この操作なしで「幻覚」を解決する業界初の新しい方法です。

5つのステップに分かれており、それぞれが明確かつ透明性のある方法で設計されているため、説明性に優れています。

写真

具体的には：

最初のステップは、重要な概念を抽出することです。

これは、モデルによって与えられた回答に記載されている主な対象、つまり「幻想」を払拭する可能性が最も高い要素を見つけることを指します。

たとえば、下の写真の場合、マルチモーダル大規模モデルは、最初に写真のゴミ箱の横に自転車が停まっていることを説明し、さらに写真のゴミ箱の前を数人の人が歩いていることも説明します。

写真

つまり、自転車、ゴミ箱、そして人という 3 つの主要な概念が得られます。

2 番目のステップは問題の構築です。

つまり、重要な概念を習得した後、それに関していくつかの質問をすることで、「幻想」がどこにあるのかをテストするのに役立ちます。

主にオブジェクトレベルと属性レベルに分けられます。前者は「写真には自転車が何台ありますか？」と尋ねることができ、後者は「ゴミ箱はどこにありますか？」と尋ねることができます。

ここでは、属性に関する質問はコンテキストに大きく依存するため、著者はコンテキストのあるいくつかの例を使用してモデルを促し、質問がより意味のあるものになるようにしました。

3番目のステップは視覚的な検証です。

ガイドはエキスパートモデルを使用して、前のステップで提起されたすべての質問に答え、後続の修正を容易にします。

たとえば、オブジェクトレベルの問題の場合、GroundingDINO を使用してターゲット検出を実行し、主要なターゲットが存在するかどうか、および主要なターゲットの数を判断します。

属性問題の場合、BLIP-2 が使用されます。このタイプの従来の VQA モデルは、長さが制限された回答を出力し、「幻覚」の質問が少なくなります。

4 番目のステップは、視覚的なアサーションの生成です。

簡単に言えば、最初の 2 つのステップで得られた質問とそれに対応する視覚情報に基づいて、構造化された「視覚的アサーション」を合成することです。

形式は次のとおりです。

写真

ついに「幻想」が修正される。

つまり、前のステップの要約に基づいてモデルの元の出力を比較し、新しい答えを取得します。

具体的な実装フェーズでは、「Woodpecker」は GPT-3.5-turbo を使用して、主要な概念の抽出、質問、修正の最終ステップを完了します。

一部のマルチモーダルモデルはコマンド追従機能が弱いため、出力は無関係なテキスト (絵文字、特殊記号など) になる場合があります。また、一部のモデルでは「はい」または「いいえ」のみを出力する場合があり、実際の修正プロセスが困難になります。

ただし、次の 2 つの簡単な対策でこの問題を解決できます。

（１）モデルの「はい」または「いいえ」の回答と、キツツキの回答（「はい、画像には犬がいます」など）を組み合わせます。こうすることで、モデルが単に「はい」または「いいえ」を答えて訂正を逃れる心配がなくなります。

（２）校正の過程で、LLMがテキストと課題の要件をよりよく把握できるように、元の質問がLLMに追加されます。

効果検証：幻覚が30％減少

方法全体は非常にわかりやすいようですが、効果はどうでしょうか?

ここでは、POPE、MME、LLaVA-QA90 データセットに対して包括的な定量的および定性的な実験を実施します。

ベースラインモデルでは、次の 4 つの主流のマルチモーダル大規模モデルを使用します。

MiniGPT-4、mPLUG Owl、LLaVA、Otter。

最後に、POPE データセットの結果は次のとおりです。

(w/Ours は「Woodpecker」によって修正された MLLM 応答を示し、x は採用されていないこと、チェックマークは採用されていることを意味します)

「Woodpecker」は、モデルが「はい」と答える確率を大幅に減らしながら、これらのモデルにさまざまな程度の改善をもたらすことができることがわかります。

ランダム設定では、MiniGPT-4 と mPLUG-Owl の精度指標がそれぞれ 30.66% と 24.33% 向上しました。

写真

より包括的な MME データセットでは、Woodpecker は、オブジェクトおよび属性レベル、つまり何かが存在するかどうか、いくつあるか、その位置と色における大規模なマルチモーダルモデルの「幻覚」も効果的に削減します。

たとえば、LLaVA カラースコアは 78.33 ポイントから 155 ポイントに大幅に増加しました。

写真

しかし、位置の「錯覚」の改善はそれほど大きくありません。著者は、これはVQAモデルBLIP-2の位置推論能力が比較的弱いことが原因ではないかと推測しています。

修正のパフォーマンスをより直接的に測定するには、オープン評価を使用するのがより直接的なアプローチです。

画像を翻訳してプレーンテキストの GPT-4 に取り込むという従来の方法とは異なり、著者らは OpenAI が最近公開したビジュアルインターフェイスを使用し、GPT-4V を使用して、修正前と修正後の画像の説明の次の 2 つの次元を直接スコアリングすることを提案しています。

（１）正確性：モデルの応答が画像の内容に対して正確であるかどうか。

（２）詳細レベル：モデルの応答の詳細の豊富さ。

この実験条件下での実験結果は次の表に示されています（満点は 10 です）。

写真

結果は、「Woodpecker」によって修正された後、画像の説明の精度が向上したことを示しており、これはフレームワークが説明の幻覚部分を効果的に修正できることを意味します。

一方、「Woodpecker」修正によって導入された位置情報は、テキストの説明を充実させ、さらなる位置情報を提供することで、詳細の豊かさを向上させます。

GPT-4V を活用した評価サンプルを下図に示します。

写真

試してみる

誰でもテストできるデモもあります。

下図のように、画像をアップロードしてリクエストを入力すると、修正前と修正後のモデルレスポンスと、参考検証用の新しい画像を取得できます。

Woopecker 紙の住所:
https://arxiv.org/abs/2310.16045 Woopecker コードアドレス: https://github.com/BradyFU/Woodpecker

<<: 新しい研究：ハトは人工知能と同様の方法で問題を解決する

>>: 英国の消費者団体が警告：AIチャットボットがオンライン詐欺をよりプロフェッショナル化

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか？考えるための材料

ブログ

OpenAIの創設者は、Nvidiaに対抗するチップを設計・製造するためのグローバルなチップ工場ネットワークを構築したいと考えている

ブログ

マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

マルチモーダル LLM 幻覚の治療のための「ウッドペッカー法」

効果検証：幻覚が30％減少

試してみる

人工知能やロボットによって仕事が奪われた後、人々の収入はどこから来るのでしょうか？考えるための材料

OpenAIの創設者は、Nvidiaに対抗するチップを設計・製造するためのグローバルなチップ工場ネットワークを構築したいと考えている

3つ目！マイクロソフト、米警察への顔認識技術の提供を拒否

「脳コンピューターインターフェースドレス」とはどのようなものでしょうか？ 1024個の独立した電極、機械学習、カスタムチップ

BiLSTMとCRFアルゴリズムを徹底的に理解する

フォーブスの分析：深刻な問題により自動運転技術は「寒い冬」を迎える可能性がある

2021年の世界トップ10の画期的テクノロジー：TikTokアルゴリズムと北斗ナビゲーションがリストに

推薦する

衣服にNFCを追加: 袖をかざすだけで安全に支払い

従来のポートレートプレイヤー向けに AI を新たなレベルに引き上げる方法

人工知能が企業発展の原動力となる

科学者らは脳の信号を読み取り「操作」できる新たな神経電子システムを開発

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

人工知能システム：無制限の核融合反応を現実のものに

合理性への回帰とアプリケーションとの統合 - AI時代のモバイル技術革新カンファレンス

18以上のSOTA GAN実装をカバーするこのライブラリは、画像生成の分野で人気があります。

今後10年間で、人間の仕事の約50％が人工知能に置き換えられるでしょうか？

AIキーボード戦士が登場: DeepMindがエージェントのトレーニングを開始、コンピューターを人間のように「操作」