130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。

130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。


  • 論文アドレス: https://arxiv.org/pdf/2311.08046.pdf
  • GitHub アドレス: https://github.com/PKU-YuanGroup/Chat-UniVi
  • ハギングフェイスアドレス: https://huggingface.co/Chat-UniVi
  • デモアドレス: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

図1 Chat-UniViは画像と動画の17のベンチマークで最先端のパフォーマンスを達成

具体的には、北京大学と中山大学の研究者らが、統一された視覚表現を通じて画像タスクとビデオタスクの両方を処理できる、 Chat-UniViと呼ばれる統一視覚言語ソリューションを提案しました。統合された視覚理解モデルとして、Chat-UniVi は、画像専用に設計されたマルチモーダル大規模モデルや、視覚トークンの少ないビデオ専用に設計されたマルチモーダル大規模モデルを上回ります。さらに注目すべきは、提案された統合視覚表現により、入力視覚トークンの数が大幅に削減され、モデルのトレーニングと推論のコストが大幅に削減され、130億のパラメータを持つ大規模なユニバーサル視覚言語モデルのトレーニングにわずか3日しかかからないことです。

この記事で方法を紹介する前に、デモ表示を見てみましょう。

方法の紹介

既存のマルチモーダル言語モデルは通常、画像またはビデオ入力のみに焦点を当てています。その中でも、画像理解に重点を置いた手法では、通常、より細かい空間解像度を得るために多数の視覚トークンを使用します。ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度が犠牲になることがよくあります。

これに対応して、研究者は、一連の動的なビジュアルトークンを使用して画像やビデオを均一に表現することを提案しました。図 2 に示すように、画像はさまざまなサイズの視覚トークンによってモデル化できます。たとえば、主なオブジェクト (図 2 の羊) を細かく表現するには、より多くの視覚トークンが必要ですが、背景 (雪山) は 1 つの視覚トークンのみを使用して適切にモデル化できます。ビデオの場合、ビデオは最初に複数の主要なイベントに分割され、次にイベント内でビジュアル トークンが展開されます。画像とビデオのこの統一された表現により、モデルの表現力を維持しながら、視覚的なトークンの数が大幅に削減されます。この方法では、長いビデオにはより多くのビジュアルトークンが割り当てられることに注意してください。そのため、既存の方法よりも長さが変化するビデオを理解するのに適しています。

図2. Chat-UniViが提案する統一された視覚表現

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。ビデオの場合、イベントのフレーム セットを取得するために、最近傍密度ピーク クラスタリング アルゴリズムも適用されます。モデルのパフォーマンスをさらに向上させるために、研究者らは LLM にマルチスケール表現を提供しました。マルチスケール表現の上位レベルの特徴は高レベルの意味概念を表し、下位レベルの特徴は視覚的な詳細の表現を強調します。

図3. Chat-UniViの全体フレームワーク

Chat-UniVi フレームワークには 2 つの魅力的な利点があります。まず、統合された画像とビデオのモデリング アプローチにより、混合画像とビデオのデータセットでトレーニングでき、変更を加えることなく画像とビデオのタスクに直接適用できます。第二に、マルチスケール表現により、画像や動画の包括的な理解が容易になり、Chat-UniVi は高レベルの特徴を使用した意味理解や低レベルの特徴を使用した詳細な説明の生成など、さまざまなタスクに適応できるようになります。

Chat-UniVi のトレーニングは 2 つの段階に分かれています。

(1)マルチモーダル事前トレーニング最初の段階では、研究者は LLM とビジュアル エンコーダーをフリーズし、投影行列のみをトレーニングします。このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

(2)共同指示の微調整第2段階では、研究者らは画像と動画が混在するデータセット上でモデル全体のすべてのパラメータを微調整しました。 Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

実験

絵の理解実験。 Chat-UniVi は、より少ないビジュアルトークンを使用しながら、優れたパフォーマンスを実現します。注目すべきは、70 億個のパラメータを持つ Chat-UniVi モデルでも、130 億個のパラメータを持つ LLaVA モデルと同等のパフォーマンス レベルを達成できることであり、これはこの方法の有効性を証明しています。

ビデオ理解実験。 Chat-UniVi は、統合された視覚言語モデルとして、VideoChat や Video-ChatGPT などのビデオ専用に設計された方法よりも優れています。

写真クイズ実験。 Chat-UniVi は、ScienceQA データセットで競争力のあるパフォーマンスを実現します。 Chat-UniVi が、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れていることは注目に値します。これは、この方法の優位性を完全に実証しています。

ビデオクイズ実験。 Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験。 Chat-UniVi は、幻覚評価に関して最近提案された最先端の方法よりも優れています。さらに研究者らは、マルチスケール表現が幻覚に対する抵抗力を向上させることを発見した。注目すべきは、7B モデルである Chat-UniVi が MiniGPT4 などの 13B モデルよりも優れていることです。研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験。同時に、研究者らは手動による評価実験も実施した。研究者たちは、Flamingo ベースのアプローチではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ専用に設計されたモデルよりも優れています。

視覚化。 Chat-UniVi が使用する動的なビジュアル トークンは、オブジェクトと背景を効果的に要約します。これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度と、ビデオ理解に必要なきめ細かい時間解像度の両方を構築できるようになります。

<<:  GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

>>:  研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

推薦する

...

2018年ロシアワールドカップではどのような「スマートハードウェア」が使用されましたか?

4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...

...

最終支払いを控える人々のダブル11不安:配達ロボットは解決できるか?

今年のダブル11のクライマックスが終わり、最後の支払いをしなければならなかった人たちも、速達を待つ苦...

FPGA+CPUアーキテクチャに基づく自動運転プラットフォームの性能分析

1 はじめに自動運転の分野では、センサーデータに対するディープニューラルネットワークに基づく大量の複...

人工知能に対するいくつかの態度: 流行を追跡するために個人データを犠牲にする用意がありますか?

最近、AI に関する調査、研究、予測、その他の定量的評価が相次いで発表され、世界中の企業による AI...

ChatGPT は来週 6 つの主要なアップデートを予定しています。

公式発表では来週6つのメジャーアップデートが予定されているとのこと。早速見ていきましょう。写真1. ...

【ビッグガイがやってくるエピソード11】ITマネージャーの自己認識とコミュニケーション管理

[51CTO.com からのオリジナル記事] IT 部門のステータスが一向に向上しないのはなぜか、上...

ジェネレーティブ AI が画像検索をどのように再定義するか

翻訳者 |李睿レビュー | Chonglou 生成AI は、ユニークなテキスト、サウンド、画像を作成...

...

史上最も完全な自動運転ポジションの紹介

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

機械学習について誰もが知っておくべきこと

この記事では、機械学習の知識を広め、機械学習で何ができるのか、どのように行うのかを簡単に紹介します。...

Baidu AI開発者会議が進行中、重要なニュースが次々と発表されている

百度AI開発者会議は予定通り7月4日から5日まで北京国家会議センターで開催されました。百度の創業者、...

...

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

[[206589]]序文以前、SVMの双対問題を最適化するために、単純なSMOアルゴリズムを実装し...