130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。

130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。


  • 論文アドレス: https://arxiv.org/pdf/2311.08046.pdf
  • GitHub アドレス: https://github.com/PKU-YuanGroup/Chat-UniVi
  • ハギングフェイスアドレス: https://huggingface.co/Chat-UniVi
  • デモアドレス: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi

図1 Chat-UniViは画像と動画の17のベンチマークで最先端のパフォーマンスを達成

具体的には、北京大学と中山大学の研究者らが、統一された視覚表現を通じて画像タスクとビデオタスクの両方を処理できる、 Chat-UniViと呼ばれる統一視覚言語ソリューションを提案しました。統合された視覚理解モデルとして、Chat-UniVi は、画像専用に設計されたマルチモーダル大規模モデルや、視覚トークンの少ないビデオ専用に設計されたマルチモーダル大規模モデルを上回ります。さらに注目すべきは、提案された統合視覚表現により、入力視覚トークンの数が大幅に削減され、モデルのトレーニングと推論のコストが大幅に削減され、130億のパラメータを持つ大規模なユニバーサル視覚言語モデルのトレーニングにわずか3日しかかからないことです。

この記事で方法を紹介する前に、デモ表示を見てみましょう。

方法の紹介

既存のマルチモーダル言語モデルは通常、画像またはビデオ入力のみに焦点を当てています。その中でも、画像理解に重点を置いた手法では、通常、より細かい空間解像度を得るために多数の視覚トークンを使用します。ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度が犠牲になることがよくあります。

これに対応して、研究者は、一連の動的なビジュアルトークンを使用して画像やビデオを均一に表現することを提案しました。図 2 に示すように、画像はさまざまなサイズの視覚トークンによってモデル化できます。たとえば、主なオブジェクト (図 2 の羊) を細かく表現するには、より多くの視覚トークンが必要ですが、背景 (雪山) は 1 つの視覚トークンのみを使用して適切にモデル化できます。ビデオの場合、ビデオは最初に複数の主要なイベントに分割され、次にイベント内でビジュアル トークンが展開されます。画像とビデオのこの統一された表現により、モデルの表現力を維持しながら、視覚的なトークンの数が大幅に削減されます。この方法では、長いビデオにはより多くのビジュアルトークンが割り当てられることに注意してください。そのため、既存の方法よりも長さが変化するビデオを理解するのに適しています。

図2. Chat-UniViが提案する統一された視覚表現

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。ビデオの場合、イベントのフレーム セットを取得するために、最近傍密度ピーク クラスタリング アルゴリズムも適用されます。モデルのパフォーマンスをさらに向上させるために、研究者らは LLM にマルチスケール表現を提供しました。マルチスケール表現の上位レベルの特徴は高レベルの意味概念を表し、下位レベルの特徴は視覚的な詳細の表現を強調します。

図3. Chat-UniViの全体フレームワーク

Chat-UniVi フレームワークには 2 つの魅力的な利点があります。まず、統合された画像とビデオのモデリング アプローチにより、混合画像とビデオのデータセットでトレーニングでき、変更を加えることなく画像とビデオのタスクに直接適用できます。第二に、マルチスケール表現により、画像や動画の包括的な理解が容易になり、Chat-UniVi は高レベルの特徴を使用した意味理解や低レベルの特徴を使用した詳細な説明の生成など、さまざまなタスクに適応できるようになります。

Chat-UniVi のトレーニングは 2 つの段階に分かれています。

(1)マルチモーダル事前トレーニング最初の段階では、研究者は LLM とビジュアル エンコーダーをフリーズし、投影行列のみをトレーニングします。このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

(2)共同指示の微調整第2段階では、研究者らは画像と動画が混在するデータセット上でモデル全体のすべてのパラメータを微調整しました。 Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

実験

絵の理解実験。 Chat-UniVi は、より少ないビジュアルトークンを使用しながら、優れたパフォーマンスを実現します。注目すべきは、70 億個のパラメータを持つ Chat-UniVi モデルでも、130 億個のパラメータを持つ LLaVA モデルと同等のパフォーマンス レベルを達成できることであり、これはこの方法の有効性を証明しています。

ビデオ理解実験。 Chat-UniVi は、統合された視覚言語モデルとして、VideoChat や Video-ChatGPT などのビデオ専用に設計された方法よりも優れています。

写真クイズ実験。 Chat-UniVi は、ScienceQA データセットで競争力のあるパフォーマンスを実現します。 Chat-UniVi が、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れていることは注目に値します。これは、この方法の優位性を完全に実証しています。

ビデオクイズ実験。 Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験。 Chat-UniVi は、幻覚評価に関して最近提案された最先端の方法よりも優れています。さらに研究者らは、マルチスケール表現が幻覚に対する抵抗力を向上させることを発見した。注目すべきは、7B モデルである Chat-UniVi が MiniGPT4 などの 13B モデルよりも優れていることです。研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験。同時に、研究者らは手動による評価実験も実施した。研究者たちは、Flamingo ベースのアプローチではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ専用に設計されたモデルよりも優れています。

視覚化。 Chat-UniVi が使用する動的なビジュアル トークンは、オブジェクトと背景を効果的に要約します。これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度と、ビデオ理解に必要なきめ細かい時間解像度の両方を構築できるようになります。

<<:  GenAI Security: Microsoft Copilot でデータ侵害を防ぐ方法

>>:  研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

ブログ    
ブログ    

推薦する

Lingzhi Unuo CTO Xu Ke: AI技術が従来の保険販売モデルのジレンマを打破

[51CTO.comより] 徐克氏は百度で検索とスマートレコメンデーションの分野で長年勤務。2015...

...

科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿され...

【就職活動】データサイエンスと機械学習のための最も包括的な面接ガイド

[[234501]]この記事では、データサイエンスと機械学習の面接で遭遇する可能性のあるさまざまな質...

労働者は大きなモデルに遭遇します。外の世界はすでにこのように機能しているのでしょうか?

オフィスのシナリオでは、PPT の作成は最も一般的なタスクの 1 つです。業務報告、製品発表、イベン...

...

Fast.ai の 10,000 ワードの記事: AI の安全性と光の終焉

ビッグデータダイジェスト制作最近、AI規制に関する意見は「新たな高み」に達し、AI専門家のグループが...

機械学習は増加傾向にありますが、そのアルゴリズムの結果は公正なのでしょうか?

アルゴリズムは驚くべき方法で私たちの生活をコントロールしています。地元のデリのカウンターで番号を受け...

Java プログラミング スキル - データ構造とアルゴリズム「ヒープ ソート」

[[389058]]ヒープソートの基本ヒープソートは、ヒープデータ構造を使用して設計されたソートア...

Google のような大企業を辞めた後、彼らはどうやって次の仕事を見つけるのでしょうか?

今年上半期、中国と米国のインターネット・テクノロジー企業は、程度の差はあれ、レイオフや人員削減を経験...

...

深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である...

自分だけのデジタルヒューマンを開発しよう、FACEGOODが音声駆動表現技術をオープンソース化

現在、メタバースのトレンドの下、AIデジタルヒューマンもエンターテインメント、サービス、教育、マーケ...

于聖奇:顔認識技術のリスクと法的規制

デジタル時代の到来により、顔認識技術の開発は大きく進歩しました。顔認識技術は普及し、多くの分野で広く...

...