北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

北京大学の最新のマルチモーダル大規模モデルはオープンソースです。混合データセットでトレーニングされ、修正なしで画像やビデオのタスクに直接使用されます。

130 億のパラメータを持つ一般的な視覚言語モデルのトレーニングには、わずか 3 日しかかかりません

北京大学と中山大学の研究チームは別の解決策を考案した。最新の研究では、研究チームは画像と動画の統一された表現を構築するためのフレームワークを提案した。

このフレームワークを使用すると、トレーニングおよび推論中のVLM (Visual Language Model) のオーバーヘッドを大幅に削減できます

具体的には、チームは提案された新しいフレームワークに従って、新しい VLM: Chat-UniViをトレーニングしました。

Chat-UniVi は、画像とビデオの混合データを使用してトレーニングすることができ、画像タスクとビデオ理解タスクを同時に処理できます。

これに基づいて、Chat-UniVi は画像とビデオに関する 17 のベンチマークで優れたパフォーマンスを発揮します。

現在、このプロジェクトは GitHub と Hugface でオープンソース化されています。

新しい方法とChat-UniViの詳細については、詳しく見てみましょう〜

Chat-UniViとは何ですか?

基本的な情報を理解した上で、Chat-UniViとは何かについて詳しくお話していきましょう。

簡単に言えば、Chat-UniVi は画像とビデオの両方を理解できる統合マルチモーダル大規模言語モデルです。

現在の VLM 手法は画像理解に偏っており、より細かい空間解像度を得るために多数の視覚トークンを使用することが多いです。

ビデオ理解に重点を置いた方法では、より多くのフレームを入力してより洗練された時間理解機能を構築するために、各フレームの空間解像度を犠牲にすることがよくあります。

それらとは異なり、Chat-UniViは動的なビジュアルトークンを採用して画像や動画を均一に表現します。動的なトークンマージ方法はパラメータフリーで、追加のトレーニングは必要ありません。

動的トークンのソースは、視覚トークンの段階的なクラスタリングです。

これらの動的な視覚トークンを取得するために、研究者は、最近傍密度ピーククラスタリングアルゴリズムに基づいて視覚トークンを徐々にグループ化し、結合しました。

その中で、絵はさまざまなサイズの視覚トークンによってモデル化できます。

例えば:

写真の羊を細かく表現するには、比較的多くの視覚トークンが必要ですが、背景の雪をかぶった山々は、1 つの視覚トークンだけで完全にモデル化できます。

ビデオについては、ビデオを処理するときに、最近傍密度ピーククラスタリングアルゴリズムも使用して、イベントのフレームセットを取得します。

Chat-UniVi はそれを複数の主要なイベントに分割し、イベント内のビジュアル トークンを展開します。

もちろん、この方法を使用すると、長いビデオにはより多くのビジュアルトークンが割り当てられるため、可変長ビデオのコンテキストでは、この方法は既存の方法よりも多くの利点があります。

要約すると、画像とビデオのこの統一された表現により、モデルの表現力を維持しながら視覚的なトークンの数が削減されます。

同時に、ビジュアル トークンの数が減るため、この方法を使用してモデルをトレーニングし、推論を実行するコストが大幅に削減されます。130 億のパラメータを持つ VLM をトレーニングするには、わずか 3 日しかかかりません。

ちなみに、モデルのパフォーマンスをさらに向上させるために、チームは LLM のマルチスケール表現も提供しました。

マルチスケール表現の上位レベルの機能は高レベルの意味概念を表し、下位レベルの機能は視覚的な詳細の表現を強調します。

この時点で、Chat-UniVi の2 つの主要な機能をまとめることができます。

まず、独自のモデリング方法により、Chat-UniVi のトレーニング データセットは写真とビデオの混合バージョンにすることができ、変更を加えることなく写真とビデオのタスクに直接適用できます。

第二に、マルチスケール表現により、Chat-UniVi は画像やビデオをより徹底的かつ包括的に理解できるようになります。

これにより、意味理解のための高レベル機能の使用や詳細な説明の生成のための低レベル機能の使用など、Chat-UniVi のタスク適応性も強化されます。

2段階のトレーニング

Chat-UniViのトレーニングは2段階に分かれています。

最初のステップは、マルチモーダル事前トレーニングです。

この段階で、研究者は LLM とビジュアル エンコーダーを凍結し、投影行列のみをトレーニングしました。

このトレーニング戦略により、モデルは LLM のパフォーマンスに顕著な悪影響を与えることなく、視覚情報を効果的にキャプチャできるようになります。

2 番目のステップは、共同指示を微調整することです。

第 2 フェーズでは、チームは画像とビデオの両方を含む混合データセットを使用して、モデル全体のすべてのパラメータを微調整しました。

Chat-UniVi は、混合データセットを共同でトレーニングすることで、多数の指示に対する優れた理解を実現し、より自然で信頼性の高い出力を生成します。

トレーニングの過程で、チームは以下の実験を実施しました。

画像理解実験

Chat-UniVi は、視覚マーカーを少なく使用しながらも優れたパフォーマンスを発揮します。

7B パラメータの Chat-UniVi モデルは、13B サイズの LLaVA モデルのパフォーマンス レベルを達成できます。これはこの方法の有効性を証明しています。

ビデオ理解実験

統合された VLM として、Chat-UniVi は、VideoChat や Video-ChatGPT など、ビデオ専用に設計された方法よりも優れています。

写真クイズ実験

Chat-UniVi は ScienceQA データセットで優れたパフォーマンスを発揮し、科学的な質問への回答に特化して最適化された LLaMA-SciTune モデルよりも優れています。

ビデオ質問応答実験

Chat-UniVi は、すべてのデータセットにおいて、VideoChat や Video-ChatGPT などの最先端の方法よりも優れたパフォーマンスを発揮します。

幻覚実験

幻覚評価の点では、Chat-UniVi は最近提案された最先端の方法よりも優れています。

7B モデルとして、Chat-UniVi は 13B のパラメータ サイズを持つ MiniGPT-4 よりも優れていることは注目に値します。

研究者たちは、この成功は、モデルが高レベルの意味概念と低レベルの視覚的外観の両方を同時に認識できるようにするマルチスケール表現によるものだと考えています。

手動評価実験

同時に、研究者らは手動による評価実験も実施した。

彼らは、Flamingo ベースの方法ではビデオを理解する能力に限界があることを発見しました。この制限は、さまざまな長さのビデオから固定数のビジュアルトークンを抽出するために Q-Former を使用していることに起因しており、時間的理解をモデル化する際の有効性を妨げています。

対照的に、統合モデルとしての Chat-UniVi は、Flamingo 上に構築された方法よりも優れているだけでなく、画像やビデオ用に特別に設計されたモデルよりも優れています。

視覚化

Chat-UniVi が採用した動的なビジュアル トークンは、オブジェクトと背景を巧みに要約します。

これにより、Chat-UniVi は、限られた数の視覚トークンを使用して、画像理解に必要なきめ細かい空間解像度とビデオ理解に必要なきめ細かい時間解像度を同時にモデル化できるようになります。

チームについて

論文の筆頭著者は、北京大学情報工学学院博士課程3年生のJin Peng氏です。

責任著者は、北京大学情報工学学院の助教授兼博士課程指導者である Yuan Li です

彼の研究分野はマルチモーダルディープラーニングと AI4S であり、その中でも AI4S 分野では主に化学と生物学の主要な問題を解決するためのディープラーニングを研究しています。

ChatExcelやChatLawなど、これまで人気があったオンライン垂直分野の大規模モデルプロジェクトはすべてYuan Li氏のチームによるものでした。

arXiv: https://arxiv.org/pdf/2311.08046.pdf
デモ: https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
GitHub: https://github.com/PKU-YuanGroup/Chat-UniVi
ハギングフェイス: https://huggingface.co/Chat-UniVi

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

企業における機械学習: 次の 1 兆ドル規模の成長はどこから来るのでしょうか?

ハリー・ポッターの世界では、組分け帽子は生徒の行動履歴、好み、性格に関するデータを取得し、そのデータ...

...

IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

この研究は、フィッシングメールの作成において AI と熟練した人間のエンジニアを対決させるという中核...

...

人工知能研究は行き詰まりに陥っているかもしれない

[51CTO.com クイック翻訳]フィリップ・K・ディックの1968年の小説『アンドロイドは電気羊...

ChatGPTメジャーアップデート!新しい API 関数呼び出し、コンテキストが 4 倍に急増、価格が下落

ビッグデータダイジェスト制作ただ! OpenAI は GPT シリーズのメジャーアップデートをリリー...

自動運転自転車が発売されました。これを見た後ではもう運転したくありません!ホットカミング

Google Bikeが先行販売を開始しました。まだ自転車に乗りたいかなんて聞くまでもありません。車...

分類アルゴリズムの概要

[[154315]]決定木分類アルゴリズム決定木誘導は古典的な分類アルゴリズムです。これは、トップダ...

3分レビュー! 2021年1月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。同時に、国際ロボット分野は前向きな発展...

先日の清明節にはドローンが頻繁に登場しました!

近年、飛行制御、ナビゲーション、センシングなどの技術の急速な発展に伴い、ドローン業界はますます大きく...

Googleは人工知能を使って人間の認知の欠陥を浮き彫りにする

今日では、驚くほど人間らしい文章の一部は、実際には大量の人間の文章でトレーニングされた AI システ...

...

AIが自動化に適した日常的なITタスク3つ

AIで自動化できる3つのITタスク幸いなことに、人工知能が役に立ちます。ここでは、AI が手動で実行...

中国のAI特許申請数が米国を上回った!我が国の最新の5Gの成果:世界をリードする技術

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

機械学習チームにはより優れた特徴エンジニアリング技術が必要

機械学習向けにデータ機能を最適化する機能エンジニアリングのスキルは、データサイエンスそのものと同じく...