言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

北京大学とテンセントがマルチモーダル15角形の戦士を制作しました！

言語を中心に据えて、ビデオ、オーディオ、奥行き、赤外線認識などのモダリティを「パンチとキック」で攻撃します。

具体的には、研究者らはLanguageBindと呼ばれるマルチモーダル事前トレーニングフレームワークを提案しました。

言語を他のモダリティとのリンクとして使用して、言語エンコーダーを固定し、対照学習方法を使用して各モダリティを共有機能空間にマッピングし、マルチモーダルデータの意味的な調整を実現します。

この方法を使用することで、モデルは 5 つのデータセットで新しい SOTA パフォーマンスを達成し、15 のゼロショット検索タスクで大幅なパフォーマンス向上を実現し、あらゆる面で ImageBind と OpenCLIP を上回りました。

各モードを言語にバインドする

LanguageBind は 3 つの部分で構成されています。

マルチモーダルエンコーダー、言語エンコーダー、およびマルチモーダル共同学習。

まず、マルチモーダルエンコーダー部分を見てみましょう。

言語以外のモダリティについては、研究者らはパッチサイズが 14 の 24 層、1024 次元の視覚トランスフォーマーを使用しました。エンコーダーは OpenCLIP-large から初期化されます。

深度と赤外線は RGB 画像として扱われ、RGB 画像に合わせてチャネル次元で 3 回複製されます。

ImageBind に従って、オーディオデータは繰り返しとパディングを含む 10 秒間 (128 メルビン) のスペクトログラムに変換されます。

パッチマスキング

エンコーダー内のすべてのトークンを処理することの非効率性を解決するために、研究者は画像をパッチに分割し、MAE 法に従ってマスクを通じて画像シーケンスの小さな部分を取得しました。

LoRAの微調整

同時に、微調整を加速するために LoRA テクノロジーが使用されます。重み行列 W0∈Rd×k を持つモーダルエンコーダの場合、新しい重み行列 BA を学習するときに重み行列 W0 は変更されません。

モダリティの拡張

LanguageBind メソッドを複数 (N) のモダリティに拡張する最初のステップは、データをトークンのシーケンスに処理することです。その後、OpenCLIP からパラメータが初期化されます。次に、言語エンコーダーを固定したまま、トークンマスキングと LoRA の微調整によって、さまざまなモダリティのエンコーダーがトレーニングされます。最後に、モダリティは言語機能空間に合わせて調整されます。

言語エンコーダーとマルチモーダル共同学習の部分を見てみましょう。

言語エンコーダーの場合、研究者は OpenCLIP から初期化された 768 次元の 12 層トランスフォーマーモデルを使用しました。

与えられたテキストに対して、まず BPE トークナイザーを使用して単語を比較的一般的なサブワードに分割します。各サブワードは、単語埋め込みレイヤーに埋め込まれた一意のトークンに対応します。最後に、これらのトークンは言語エンコーダーによってエンコードされ、テキストペアが取得されます。

ここで、L はシーケンスの長さを表します。異なる様式間の整合性を保証するために、研究者は対照学習原理を採用しました。

このアプローチの目的は、ペアになっているデータの類似性を高めて同じ意味空間に近づけると同時に、ペアになっていないデータの類似性を減らすことです。研究者たちは対照学習を利用して、さまざまな様相を言語に結び付けました。

高品質なデータセットの構築

さらに、研究者らは「VIDAL-10M」と呼ばれる高品質のデータセットも作成しました。これには、ビデオ言語、赤外線言語、深度言語、音声言語が揃った1,000 万のデータペアが含まれています。これは、深度と赤外線のモダリティを備えた初の大規模なビデオマルチモーダルデータセットです。

データセットの構築方法は次のとおりです。

△VIDAL-10M 構造フレーム

最初のステップは、検索用語データベースを生成することです。このプロセスで、研究者は、ラベルやタイトルを含むさまざまな視覚タスクデータセットからのテキストデータを活用して、豊富な視覚的概念と多様性を備えたビデオデータセットを構築する独自の検索用語取得戦略を設計しました。

2 番目のステップは、インターネットから関連するビデオとオーディオを収集し、一連のフィルタリングプロセスを実行して、データセットの品質と正確性を確保することです。

このプロセス中、研究者は、テキストベースのフィルタリング、ビジュアルベースのフィルタリング、オーディオベースのフィルタリングなど、さまざまなフィルタリング方法を使用して、データセット内のビデオとオーディオが検索用語に関連しており、高品質であることを確認しました。

3 番目のステップでは、赤外線および深度モダリティの生成、およびマルチビューテキストの生成と強化を実行します。

空間情報の強化に関しては、研究者らは OFA モデルを使用して複数のキーフレーム記述を生成し、ビデオコンテンツの空間表現品質を向上させました。

同時に、時間情報の強化に関しては、ビデオコンテンツ、タイトル、ハッシュタグタグが mPLUG-owl モデルに入力され、より洗練された豊富な時間次元の説明が得られます。

最後に、研究者は ChatGPT モデルを使用して、テキストの説明をさらに改良し、強化しました。

要約すると、マルチビューテキスト拡張機能は、タイトル、タグ、キーフレームの説明、ビデオの説明などの複数のコンポーネントをカバーし、ビデオコンテンツの包括的かつ詳細な説明を提供します。

複数のテストでSOTAを達成

テスト段階では、多数の実験により VIDAL-10M データセットと LanguageBind メソッドの有効性が検証され、ビデオ、オーディオ、その他のモーダル理解タスクで優れたパフォーマンスが達成されました。

LanguageBind は 4 つのデータセットすべてで SOTA パフォーマンスを達成します。

これは、MSR-VTT 上の InterVideo 方式よりも 1.9% 高く、MSVD 上の InterVideo よりも 8.8% 高く、DiDeMo 上の InterVideo よりも 6.3% 高く、ActivityNet 上の InterVideo よりも 4.4% 高くなります。

InterVideo がより広範囲のトレーニングデータを使用していることは注目に値します。これは LanguageBind の有効性を示しています。

△ゼロショット動画テキスト検索結果

ビデオ言語、赤外線言語、深度言語、音声言語のゼロショット分類は、すべてのデータセットで ImageBind や OpenCLIP よりも精度が優れています。

Zero-Shot 音声言語検索も優れたパフォーマンスを発揮します。

論文リンク: https://arxiv.org/pdf/2310.01852.pdf

<<: 総合異常検知の新たな夜明け：華中科技大学などがGPT-4Vの総合異常検知性能を明らかに

>>: Google DeepMindがAGIをランク付け、ChatGPTのランクはどこになるか推測してください

Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート

言語は「絆」であり、イメージバインドを超えて、さまざまなモードでパンチとキックを行う

各モードを言語にバインドする

高品質なデータセットの構築

複数のテストでSOTAを達成

Microsoft EdgeブラウザがGoogleのオープンソース圧縮アルゴリズムをサポート

2021年に注目すべき5つのAIトレンド

宇宙も「独学」です！このプロセスは機械学習アルゴリズムに似ており、物理法則を刷新するものである。

第4世代移動ロボット：凌東科技V-AMRのグローバル発売と投資促進

ロボットがお届けする素敵なショッピング旅行

人工知能を開発するには何が必要ですか?

アリババクラウド＋新たな実体経済データ、人工知能の第二の60年を巡る戦い

推薦する

戦争におけるAI：ウクライナはロシア軍兵士を「調査」するために顔認識を使用しているが、これは単なる子供の遊びだ

ゼロから学ぶPythonによるディープラーニング！

ゴースト吹き替えチームにとって朗報です！ AIがあらゆる言語のリップシンクを自動生成

Facebook、MITなどが共同で451ページの原稿を発表：「第一原理」を使ってDNNを説明する」

疫病流行中の人間の行動にAIが混乱！データ変更による作業の「異常」は手動での制御が必要

人工知能、機械学習、ディープラーニング

研究によると、2027年までにAIの電力消費量は一部の国の電力消費量と同等になると予想されている。

テストへの道はどこにあるのでしょうか? YOLOv8 の究極ガイド

ポストエピデミック時代におけるスマートビルディング技術の重要な役割

専門家：歩行者の安全問題を解決するために都市は自動運転だけに頼ることはできない

AIは生体認証のなりすまし攻撃を簡単に見分けることができる