マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

マルチモーダル LLM 幻覚問題が 30% 減少しました!業界初の「キツツキ」無重力トレーニング法が誕生

大規模なマルチモーダル モデルの「幻覚」問題を解決するために、まだ命令の微調整を使用していますか?

例えば、下の写真では、モデルはオレンジ色のコーギーを「赤い犬」と勘違いし、周囲に他にも数匹いることを指摘しています。

写真

現在、USTC による調査で新たなアプローチが提案されています。

再トレーニングを必要とせず、プラグアンドプレイのユニバーサルアーキテクチャ。モデルによって与えられた誤ったテキストから直接開始し、可能性のある「幻覚」を「逆転」させてから、画像で事実を確認し、最終的に直接修正を完了します。

彼らはこの方法を「ウッドペッカー」と名付けました。

写真

最初に木のワームホールを見つけて、その中のワームを食べる、いわゆる「森の医者」と同じように、この記事で提案されている「キツツキ」も、マルチモーダルな大規模モデルの「幻覚」医者であり、最初に問題を診断し、次にそれらを一つずつ修正することができます。

結果は「医療技術は確かに優れている」であり、成功すれば次のようになります。

(1)MiniGPT-4の精度は54.67%から85.33%に向上した。

(2)mPLUG Owの精度は62%から86.33%に向上した。

下の図に示すように、検出が難しいさまざまな小さな物体や複雑なカウントのシナリオに対応できます。

写真

それで、具体的にはどのように診断されるのでしょうか?

マルチモーダル LLM 幻覚の治療のための「ウッドペッカー法」

現在、大規模モデルの幻覚問題に対する業界の解決策は、基本的に特定のデータを使用して指示を微調整することです。

たとえば、一部の大規模マルチモーダル モデル (MLLM) は、質問に答えるときに常に肯定的な回答を出す傾向があります (たとえば、ハゲの人の写真を見せられて、その人の髪の色を尋ねられた場合、即座に「黒」と答えます)。モデルに否定的なサンプルを含むデータを入力すると、「何もないところから何かを作り出す」という錯覚を解消し、存在しないものに遭遇したときに「いいえ」と言うようにすることができます。

指示を微調整するだけでなく、アーキテクチャの調整も行われます。いずれにしても、新しいモデルを再トレーニングする必要があります。

この記事で提案する「Woodpecker」フレームワークは、この操作なしで「幻覚」を解決する業界初の新しい方法です。

5つのステップに分かれており、それぞれが明確かつ透明性のある方法で設計されているため、説明性に優れています。

写真

具体的には:

最初のステップは、重要な概念を抽出することです。

これは、モデルによって与えられた回答に記載されている主な対象、つまり「幻想」を払拭する可能性が最も高い要素を見つけることを指します。

たとえば、下の写真の場合、マルチモーダル大規模モデルは、最初に写真のゴミ箱の横に自転車が停まっていることを説明し、さらに写真のゴミ箱の前を数人の人が歩いていることも説明します。

写真

つまり、自転車、ゴミ箱、そして人という 3 つの主要な概念が得られます。

2 番目のステップは問題の構築です。

つまり、重要な概念を習得した後、それに関していくつかの質問をすることで、「幻想」がどこにあるのかをテストするのに役立ちます。

主にオブジェクトレベルと属性レベルに分けられます。前者は「写真には自転車が何台ありますか?」と尋ねることができ、後者は「ゴミ箱はどこにありますか?」と尋ねることができます。

ここでは、属性に関する質問はコンテキストに大きく依存するため、著者はコンテキストのあるいくつかの例を使用してモデルを促し、質問がより意味のあるものになるようにしました。

3番目のステップは視覚的な検証です。

ガイドはエキスパート モデルを使用して、前のステップで提起されたすべての質問に答え、後続の修正を容易にします。

たとえば、オブジェクト レベルの問題の場合、GroundingDINO を使用してターゲット検出を実行し、主要なターゲットが存在するかどうか、および主要なターゲットの数を判断します。

属性問題の場合、BLIP-2 が使用されます。このタイプの従来の VQA モデルは、長さが制限された回答を出力し、「幻覚」の質問が少なくなります。

4 番目のステップは、視覚的なアサーションの生成です。

簡単に言えば、最初の 2 つのステップで得られた質問とそれに対応する視覚情報に基づいて、構造化された「視覚的アサーション」を合成することです。

形式は次のとおりです。

写真

ついに「幻想」が修正される。

つまり、前のステップの要約に基づいてモデルの元の出力を比較し、新しい答えを取得します。

具体的な実装フェーズでは、「Woodpecker」は GPT-3.5-turbo を使用して、主要な概念の抽出、質問、修正の最終ステップを完了します。

一部のマルチモーダル モデルはコマンド追従機能が弱いため、出力は無関係なテキスト (絵文字、特殊記号など) になる場合があります。また、一部のモデルでは「はい」または「いいえ」のみを出力する場合があり、実際の修正プロセスが困難になります。

ただし、次の 2 つの簡単な対策でこの問題を解決できます。

(1)モデルの「はい」または「いいえ」の回答と、キツツキの回答(「はい、画像には犬がいます」など)を組み合わせます。こうすることで、モデルが単に「はい」または「いいえ」を答えて訂正を逃れる心配がなくなります。

(2)校正の過程で、LLMがテキストと課題の要件をよりよく把握できるように、元の質問がLLMに追加されます。

効果検証:幻覚が30%減少

方法全体は非常にわかりやすいようですが、効果はどうでしょうか?

ここでは、POPE、MME、LLaVA-QA90 データセットに対して包括的な定量的および定性的な実験を実施します。

ベースライン モデルでは、次の 4 つの主流のマルチモーダル大規模モデルを使用します。

MiniGPT-4、mPLUG Owl、LLaVA、Otter。

最後に、POPE データセットの結果は次のとおりです。

(w/Ours は「Woodpecker」によって修正された MLLM 応答を示し、x は採用されていないこと、チェック マークは採用されていることを意味します)

「Woodpecker」は、モデルが「はい」と答える確率を大幅に減らしながら、これらのモデルにさまざまな程度の改善をもたらすことができることがわかります。

ランダム設定では、MiniGPT-4 と mPLUG-Owl の精度指標がそれぞれ 30.66% と 24.33% 向上しました。

写真

より包括的な MME データセットでは、Woodpecker は、オブジェクトおよび属性レベル、つまり何かが存在するかどうか、いくつあるか、その位置と色における大規模なマルチモーダル モデルの「幻覚」も効果的に削減します。

たとえば、LLaVA カラー スコアは 78.33 ポイントから 155 ポイントに大幅に増加しました。

写真

しかし、位置の「錯覚」の改善はそれほど大きくありません。著者は、これはVQAモデルBLIP-2の位置推論能力が比較的弱いことが原因ではないかと推測しています。

修正のパフォーマンスをより直接的に測定するには、オープン評価を使用するのがより直接的なアプローチです。

画像を翻訳してプレーンテキストの GPT-4 に取り込むという従来の方法とは異なり、著者らは OpenAI が最近公開したビジュアル インターフェイスを使用し、GPT-4V を使用して、修正前と修正後の画像の説明の次の 2 つの次元を直接スコアリングすることを提案しています。

(1)正確性:モデルの応答が画像の内容に対して正確であるかどうか。

(2)詳細レベル:モデルの応答の詳細の豊富さ。

この実験条件下での実験結果は次の表に示されています(満点は 10 です)。

写真

結果は、「Woodpecker」によって修正された後、画像の説明の精度が向上したことを示しており、これはフレームワークが説明の幻覚部分を効果的に修正できることを意味します。

一方、「Woodpecker」修正によって導入された位置情報は、テキストの説明を充実させ、さらなる位置情報を提供することで、詳細の豊かさを向上させます。

GPT-4V を活用した評価サンプルを下図に示します。

写真

試してみる

誰でもテストできるデモもあります。

下図のように、画像をアップロードしてリクエストを入力すると、修正前と修正後のモデルレスポンスと、参考検証用の新しい画像を取得できます。

Woopecker 紙の住所:
https://arxiv.org/abs/2310.16045 Woopecker コードアドレス: https://github.com/BradyFU/Woodpecker

<<:  新しい研究:ハトは人工知能と同様の方法で問題を解決する

>>:  英国の消費者団体が警告:AIチャットボットがオンライン詐欺をよりプロフェッショナル化

ブログ    
ブログ    

推薦する

リモートワークにおけるAIの活用事例

世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...

AIエンタープライズアプリケーションは成熟しつつある

デロイトは最新の「企業における AI の現状」レポートで、AI 実践の成功を特徴付ける共通点と、達成...

...

AIコピーライティングの11のメリット

この記事では、AI がコピーライターにもたらす 11 のメリットの一部と、次のプロジェクトで AI ...

人工知能バブルの次のラウンドは、消費者向けロボットによって引き起こされるかもしれません。

ロボット業界ではここ1か月間、大きなニュースが数多くあり、大きな注目を集めています。テンセントが率い...

Amazon Web Services は、5 つのステップで企業の生成 AI の実現を支援します。

アマゾンのCEO、アンディ・ジャシー氏はかつて、アマゾン ウェブ サービスの目標は、誰もが大企業と同...

学術専門家を募集中 | 過去 10 年間に人工知能の 21 のサブ分野で引用数の多い学者

人工知能は、特に過去 10 年間で急速に発展しました。人工知能の分野は、自然言語処理、コンピューター...

...

世界初の大型モデルエージェントが発売!口を動かすだけでPCが働き者になる

最近、謎のアシスタントであるシャオ・シュアイの助けにより、彼のオフィスの効率は以前に比べて10倍以上...

プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

学生時代、私は Huya の面接を受けたことがあります。今でもはっきりと覚えている面接の質問がありま...

...

GitHub Wanxing の中国語機械学習リソース: ロードマップ、ビデオ、学習提案がすべてここにあります

[[263087]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

...

意見:AI主導のテクノロジーが新たな道を切り開く

AI は、通常は人間の知能を必要とする活動を実行できるアルゴリズムを研究および開発するコンピュータ...