北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

130 億のパラメータを持つ一般的な視覚言語モデルのトレーニングには、わずか 3 日しかかかりません。

北京大学と中山大学の研究チームは別の解決策を考案した。最新の研究では、研究チームは画像と動画の統一された表現を構築するためのフレームワークを提案した。

このフレームワークを使用すると、トレーニングおよび推論中のVLM (Visual Language Model) のオーバーヘッドを大幅に削減できます。

具体的には、チームは提案された新しいフレームワークに従って、新しい VLM: Chat-UniViをトレーニングしました。

Chat-UniVi は、画像とビデオの混合データを使用してトレーニングすることができ、画像タスクとビデオ理解タスクを同時に処理できます。

これに基づいて、Chat-UniVi は画像とビデオに関する 17 のベンチマークで優れたパフォーマンスを発揮します。

現在、このプロジェクトは GitHub と Hugface でオープンソース化されています。

新しい方法とChat-UniViの詳細については、詳しく見てみましょう〜

Chat-UniViとは何ですか？

基本的な情報を理解した上で、Chat-UniViとは何かについて詳しくお話していきましょう。

簡単に言えば、Chat-UniVi は画像とビデオの両方を理解できる統合マルチモーダル大規模言語モデルです。

現在の VLM 手法は画像理解に偏っており、より細かい空間解像度を得るために多数の視覚トークンを使用することが多いです。

ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度を犠牲にすることがよくあります。

それらとは異なり、Chat-UniViは動的なビジュアルトークンを採用して画像や動画を均一に表現します。動的なトークンマージ方法はパラメータフリーで、追加のトレーニングは必要ありません。

動的トークンのソースは、視覚トークンの段階的なクラスタリングです。

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。

その中で、絵はさまざまなサイズの視覚トークンによってモデル化できます。

例えば：

写真の羊を細かく表現するには、比較的多くの視覚トークンが必要ですが、背景の雪をかぶった山々は、1 つの視覚トークンだけで完全にモデル化できます。

ビデオについては、ビデオを処理するときに、最近傍密度ピーククラスタリングアルゴリズムも使用して、イベントのフレームセットを取得します。

Chat-UniVi はそれを複数の主要なイベントに分割し、イベント内のビジュアルトークンを展開します。

もちろん、この方法を使用すると、長いビデオにはより多くのビジュアルトークンが割り当てられるため、可変長ビデオのコンテキストでは、この方法は既存の方法よりも多くの利点があります。

要約すると、画像とビデオのこの統一された表現により、モデルの表現力を維持しながら視覚的なトークンの数が削減されます。

同時に、ビジュアルトークンの数が減るため、この方法を使用してモデルをトレーニングし、推論を実行するコストが大幅に削減されます。130 億のパラメータを持つ VLM をトレーニングするには、わずか 3 日しかかかりません。

ちなみに、モデルのパフォーマンスをさらに向上させるために、チームは LLM のマルチスケール表現も提供しました。

マルチスケール表現の上位レベルの機能は高レベルの意味概念を表し、下位レベルの機能は視覚的な詳細の表現を強調します。

この時点で、Chat-UniVi の2 つの主要な機能をまとめることができます。

まず、独自のモデリング方法により、Chat-UniVi のトレーニングデータセットは写真とビデオの混合バージョンにすることができ、変更を加えることなく写真とビデオのタスクに直接適用できます。

第二に、マルチスケール表現により、Chat-UniVi は画像やビデオをより徹底的かつ包括的に理解できるようになります。

これにより、意味理解のための高レベル機能の使用や詳細な説明の生成のための低レベル機能の使用など、Chat-UniVi のタスク適応性も強化されます。

2段階のトレーニング

Chat-UniViのトレーニングは2段階に分かれています。

最初のステップは、マルチモーダル事前トレーニングです。

この段階で、研究者は LLM とビジュアルエンコーダーを凍結し、投影行列のみをトレーニングしました。

このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

2 番目のステップは、共同指示を微調整することです。

第 2 フェーズでは、チームは画像とビデオの両方を含む混合データセットを使用して、モデル全体のすべてのパラメータを微調整しました。

Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

トレーニングの過程で、チームは以下の実験を実施しました。

画像理解実験

Chat-UniVi は、視覚マーカーを少なく使用しながらも優れたパフォーマンスを発揮します。

7B パラメータの Chat-UniVi モデルは、13B サイズの LLaVA モデルのパフォーマンスレベルを達成できます。これはこの方法の有効性を証明しています。

ビデオ理解実験

統合された VLM として、Chat-UniVi は、VideoChat や Video-ChatGPT など、ビデオ専用に設計された方法よりも優れています。

写真クイズ実験

Chat-UniVi は ScienceQA データセットで優れたパフォーマンスを発揮し、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れています。

ビデオ質問応答実験

Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験

幻覚評価の点では、Chat-UniVi は最近提案された最先端の方法よりも優れています。

7B モデルとして、Chat-UniVi は 13B のパラメータサイズを持つ MiniGPT-4 よりも優れていることは注目に値します。

研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験

同時に、研究者らは手動による評価実験も実施した。

彼らは、Flamingo ベースの方法ではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。

対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ用に特別に設計されたモデルよりも優れています。

視覚化

Chat-UniVi が採用した動的なビジュアルトークンは、オブジェクトと背景を巧みに要約します。

これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度とビデオ理解に必要なきめ細かい時間解像度を同時にモデル化できるようになります。

チームについて

論文の筆頭著者は、北京大学情報工学学院博士課程3年生のJin Peng氏です。

責任著者は、北京大学情報工学学院の助教授兼博士課程指導者である Yuan Li です。

彼の研究分野はマルチモーダルディープラーニングと AI4S であり、その中でも AI4S 分野では主に化学と生物学の主要な問題を解決するためのディープラーニングを研究しています。

ChatExcelやChatLawなど、これまで人気があったオンライン垂直分野の大規模モデルプロジェクトはすべてYuan Li氏のチームによるものでした。

arXiv: https://arxiv.org/pdf/2311.08046.pdf
デモ: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub: https://github.com/PKU-YuanGroup/Chat-UniVi
ハギングフェイス: https://huggingface.co/Chat-UniVi

<<:

>>:

韓国が世界初の常温超伝導体を開発？ 127度での超伝導、再現できればノーベル賞確実

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

Chat-UniViとは何ですか？

2段階のトレーニング

画像理解実験

ビデオ理解実験

写真クイズ実験

ビデオ質問応答実験

幻覚実験

手動評価実験

視覚化

チームについて

韓国が世界初の常温超伝導体を開発？ 127度での超伝導、再現できればノーベル賞確実

ベイズ最適化の美しさ: 素晴らしいアルゴリズムの背後にある直感

人工知能の解釈については、この記事を読んでください

AIは、対応するデータセットを必要とせずに意味理解を通じて写真を抽象画に変換し、ピカソのようにわずか4本のストロークで魅力を保ちます。

安全な生産を守り、ロボット、IoTなどの技術サポートを提供します。

人工知能とモノのインターネット (AIoT) を組み合わせた場合の威力とは?

2019年の人工知能の予測と展望

推薦する

企業における機械学習: 次の 1 兆ドル規模の成長はどこから来るのでしょうか?

IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

人工知能研究は行き詰まりに陥っているかもしれない

ChatGPTメジャーアップデート！新しい API 関数呼び出し、コンテキストが 4 倍に急増、価格が下落

自動運転自転車が発売されました。これを見た後ではもう運転したくありません！ホットカミング

分類アルゴリズムの概要

3分レビュー！ 2021年1月のロボット工学分野の重要な動向の概要

先日の清明節にはドローンが頻繁に登場しました！

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

AIが自動化に適した日常的なITタスク3つ

中国のAI特許申請数が米国を上回った！我が国の最新の5Gの成果：世界をリードする技術

機械学習チームにはより優れた特徴エンジニアリング技術が必要