AVFormer: ゼロショット AV-ASR のフリーズドスピーチモデルに視覚を注入

AVFormer: ゼロショット AV-ASR のフリーズドスピーチモデルに視覚を注入

翻訳者 | 崔昊

レビュー | Chonglou

まとめ

Google Research の研究科学者である Arsha Nagrani 氏と Paul Hongsuck Seo 氏は、既存の音声のみのASR モデルに視覚的理解を注入して、さまざまな領域にわたる一般化パフォーマンスを向上させるAVFormer という新しい手法を発表しました。 AVFormer は、最小限の追加トレーニング時間とパラメータで少量の弱くラベル付けされたビデオ データでトレーニングできる軽量のトレーニング可能なアダプターを使用して、固定された ASR モデルに視覚的な埋め込みを挿入します。このアプローチは、手動注釈なしで AV-ASR データセットでトレーニングした場合に、ゼロショットのパフォーマンス、つまり最先端のパフォーマンスを実現します。

[編集者注:機械学習とディープラーニングでは、「フリーズ」とは一般に、トレーニング中にモデルの特定の部分またはパラメータを変更しないことを指します。これは通常、バックプロパゲーション中にこれらのパラメータの更新を無効にすることによって実現されます。 「固定音声モデル」とは、この音声認識モデルが新しい視覚タスクに使用されるときに、そのパラメータが変更されず、それ以上トレーニングも調整もされないことを意味します。

導入

自動音声認識 (ASR) は、テレビ会議、ビデオの文字起こし、音声コマンドなどのさまざまなアプリケーションで広く使用されている成熟したテクノロジーです。この技術の課題は主にノイズの多いオーディオ入力に焦点を当てていますが、マルチモーダル ビデオ (テレビ、オンラインで編集されたビデオなど) のビジュアル ストリームは、ASR システムの堅牢性を向上させる強力な手がかりを提供できます。これは、いわゆるオーディオビジュアル ASR (AV-ASR) です。

[編集者注: 「ゼロショット」は機械学習の用語で、通常は特別なトレーニングやテストの状況を説明するために使用されます。この場合、モデルは、そのクラスのトレーニング例をまったく見ることなく、特定のクラスのインスタンスを認識するように求められます。これは通常、モデルをトレーニングして、カテゴリ間の何らかの構造や関係を理解し​​て活用することによって実現されます。

たとえば、猫と犬を認識するように学習したモデルがあり、トレーニング データでウサギを見たことがないのに、ウサギを認識するように要求するとします。モデルがウサギを正しく識別できる場合、そのモデルは「ゼロサンプル/ゼロショット」機能を備えていると言えます。

この記事で「ゼロショット」とは、手動による注釈なしで AV-ASR データセットでトレーニングした場合にモデルが最先端のパフォーマンスを達成することを意味します。言い換えれば、モデルはトレーニング段階では見たことのないデータの種類や状況を処理して理解できるようになります。 】

唇の動きは音声認識に強力な信号を提供する可能性があり、AV-ASR で最も頻繁に注目される領域ですが、実際のビデオでは口が直接見えないことがよくあります (自己中心的な視点、顔の覆い、低解像度など)。そのため、制約のない AV-ASR (AVATAR など) という新たな研究分野が生まれており、口の領域だけでなく、視覚フレーム全体の貢献を研究します。

しかし、AV-ASR モデルをトレーニングするためのオーディオビジュアル データセットを構築するのは困難です。 How2 や VisSpeech などのデータセットはオンライン教育ビデオから作成されていますが、規模は小さいです。対照的に、モデル自体は通常大きく、ビジュアル エンコーダーとオーディオ エンコーダーの両方を含んでいるため、これらの小さなデータセットでは過剰適合する傾向があります。それでも、LibriLight や LibriSpeech など、オーディオブックからの大量のオーディオのみのデータを使った大規模なトレーニングを通じて大幅に最適化された大規模なオーディオのみのモデルが最近リリースされています。これらのモデルには数十億のパラメータが含まれており、すぐに利用可能で、さまざまなドメインで強力な一般化機能を発揮します。

上記の課題を考慮して、「AVFormer: ゼロショット AV-ASR を実現するために、固定音声モデルにビジョンを注入する」では、軽量のドメイン適応を実行しながら、既存の大規模なオーディオのみのモデルを視覚情報で拡張するシンプルなアプローチを提案します。 AVFormer は、最小限の追加トレーニング時間とパラメータで少量の弱くラベル付けされたビデオ データでトレーニングできる軽量のトレーニング可能なアダプターを使用して、固定された ASR モデルに視覚的な埋め込みを挿入します (Flamingo が視覚テキスト タスクの大規模な言語モデルに視覚情報を挿入する方法と同様)。また、モデルが音声情報と視覚情報の両方を効果的に処理できるようにするには、トレーニング中に簡単なカリキュラム スキームを導入することが重要であることがわかりました。最終的な AVFormer モデルは、3 つの異なる AV-ASR ベンチマーク (How2、VisSpeech、Ego4D) で最先端のゼロショット パフォーマンスを達成すると同時に、従来のオーディオのみの音声認識ベンチマーク (LibriSpeech) でも優れたパフォーマンスを維持します。

「制約のないオーディオビジュアル音声認識。軽量モジュールを介して固定音声モデル (BEST-RQ、灰色で表示) に視覚を注入し、パラメーターとデータ効率の高い AVFormer (青) というモデルを作成することで、ゼロショットのオーディオビジュアル ASR を実現します。視覚的なコンテキストは、特にオーディオ信号にノイズがある場合に、堅牢な音声認識に役立つ手がかりを提供できます (視覚的なパンくずリストは、生成された転写のオーディオのみのエラーを修正するのに役立ちます。「クローブ」は「ローフ」に修正されます)

軽量モジュールを使用して視覚効果を挿入する

私たちの目標は、AV や音声のみのドメインを含むさまざまなドメインへの一般化パフォーマンスを維持しながら、既存の音声のみの ASR モデルに視覚理解機能を追加することです。

この目標を達成するために、私たちは既存の最先端の ASR モデル (Best-RQ) を次の 2 つのコンポーネントで強化しました: (i) リニア ビジョン プロジェクターと (ii) 軽量アダプター。前者は、視覚的な特徴をオーディオ トークンの埋め込み空間に投影します。このプロセスにより、モデルは個別に事前トレーニングされた視覚的特徴と音声入力トークン表現を正しく接続できるようになります。後者は、ビデオからのマルチモーダル入力の理解を深めるためにモデルを最小限に変更します。次に、ASR モデルの出力を疑似グラウンドトゥルースとして使用し、Best-RQ モデルの残りの部分を固定したまま、HowTo100M データセットのラベルなし Web ビデオでこれらの追加モジュールをトレーニングします。このような軽量モジュールにより、データ効率とパフォーマンスの強力な一般化が可能になります。

私たちは、手動で注釈が付けられた AV-ASR データセットでモデルがトレーニングされたことのないゼロショット設定で、AV-ASR ベンチマークで拡張モデルを評価します。

視覚的な浸透のためのコース学習の設定

初期評価の後、モデルが単純な一連の共同トレーニングでアダプタと視覚プロジェクターの両方を一度に学習することは難しいことが経験的にわかりました。この問題に対処するために、ドメイン適応と視覚的特徴の統合という 2 つの要素を切り離し、ネットワークを順番にトレーニングする 2 段階のカリキュラム学習戦略を導入します。最初のフェーズでは、視覚トークンを入力せずにアダプタ パラメータが最適化されます。アダプターがトレーニングされると、第 2 段階でビジョン トークンを追加し、トレーニング済みのアダプターを固定したまま、ビジョン投影レイヤーを個別にトレーニングします。

最初のフェーズでは、オーディオ領域での適応に重点が置かれます。第 2 段階では、アダプターは完全にフリーズされ、ビジュアル プロジェクターは、オーディオ空間にビジュアル トークンを投影するためのビジュアル キューを生成することだけを学習する必要があります。このように、私たちのカリキュラム学習戦略により、モデルは視覚入力に対応すると同時に、AV-ASR ベンチマーク上の新しいオーディオ領域に適応できるようになります。交互のフェーズを繰り返し適用するとパフォーマンスが低下する可能性があるため、各フェーズは 1 回だけ適用します。

AVFormer の全体的なアーキテクチャとトレーニング プロセス。このアーキテクチャは、凍結された Conformer エンコーダー/デコーダー モデルと凍結された CLIP エンコーダー (凍結されたレイヤーは灰色で表示され、ロック シンボルが表示されます) で構成され、マルチモーダル ドメイン適応を実現するための 2 つの軽量のトレーニング可能なモジュール (i) 視覚投影レイヤー (オレンジ) とボトルネック アダプター (青) が組み合わされています。私たちは、2 段階のカリキュラム学習戦略を提案します。まず、視覚トークンなしでアダプターをトレーニングし (青)、次に他のすべての部分を固定したまま、視覚投影レイヤーを微調整します (オレンジ)。

[編集者注: 最初の段階では、モデルの「アダプター」パラメータを最適化しました。アダプターは、モデルが新しいドメインまたはタスクに適応するのを支援するモデルの一部です。この段階では、視覚情報は使用せず、モデルが音声情報をより適切に処理できるようにしただけです。

アダプターはトレーニングが完了すると、第 2 フェーズに入ります。この段階で、視覚情報を追加し、モデルの「視覚プロジェクター」部分のトレーニングを開始します。ビジュアルプロジェクターの役割は、視覚情報をモデルが理解できる形式に変換することです。この段階では、アダプターのパラメータは変更せず、ビジョン プロジェクターのみをトレーニングします。

この段階的なトレーニング戦略により、モデルは一度にすべてを学習するのではなく、視覚情報と音声情報を処理する方法を徐々に学習できます。これを行う利点は、トレーニング中にモデルのパフォーマンスが低下するのを防ぐことです。 】

次のグラフは、カリキュラム学習がない場合、すべてのデータセットにおいて AV-ASR モデルのパフォーマンスがオーディオのみのベースラインよりも低下し、視覚トークンが追加されるにつれてその差が拡大することを示しています。対照的に、私たちが提案する 2 段階のカリキュラムを適用すると、AV-ASR モデルはベースラインのオーディオのみのモデルよりも大幅に優れたパフォーマンスを発揮します。

「カリキュラム学習の効果。赤と青の線はオーディオ ビジョン モデルを表し、ゼロ ショット設定の 3 つのデータセットに表示されています (WER% が低いほど優れています)。カリキュラムのトレーニングは、3 つのデータセットすべてで大幅に役立ちます (How2 (a) と Ego4D (c) の場合、オーディオのみのパフォーマンスを上回るために重要です)。パフォーマンスは 4 つのビジュアル トークンで向上し、その時点で飽和します。」

ゼロショットAV-ASRの結果

3 つの AV-ASR ベンチマーク (How2、VisSpeech、Ego4D) でのゼロショット パフォーマンスについて、AVFormer を BEST-RQ (当社のモデルのオーディオ バージョン) および AVATAR (AV-ASR の最先端技術) と比較します。 AVFormer は、LibriSpeech と完全な HowTo100M コレクションでトレーニングした場合でも、あらゆる面で AVATAR および BEST-RQ を上回ります。注目すべきは、BEST-RQ のトレーニング パラメータは 600M であるのに対し、AVFormer のトレーニング パラメータは 4M であるため、効果を得るにはトレーニング データセットのごく一部 (HowTo100M の 5%) のみが必要であるということです。さらに、LibriSpeech でのパフォーマンスも評価し、AVFormer はオーディオのみで両方のベースラインを上回りました。

さまざまな AV-ASR データセットにおけるゼロショット パフォーマンスに関する最先端の方法との比較。オーディオのみのLibriSpeechでパフォーマンスを実証しました。結果は WER% として報告されます (低いほど良い)。 AVATAR と BEST-RQ は HowTo100M (すべてのパラメータ) でエンドツーエンドで微調整されていますが、AVFormer は微調整されたパラメータのセットが少ないため、データセットの 5% のみを使用する場合でも効果的に機能します。

結論は

既存の固定された最先端の ASR モデルを AV-ASR に適合させる軽量な方法である AVFormer を紹介します。当社のアプローチは実用的かつ効率的であり、優れたゼロショットパフォーマンスを実現します。 ASR モデルが大きくなるにつれて、事前トレーニング済みモデルのパラメータ セット全体を調整することは非現実的になります (ドメインが異なる場合はさらに非現実的になります)。私たちのアプローチは、同じパラメータ効率の高いモデルでドメイン転送と視覚入力ブレンディングをシームレスに実現します。

翻訳者紹介

51CTO コミュニティ エディター兼シニア アーキテクトの Cui Hao 氏は、ソフトウェア開発とアーキテクチャで 18 年の経験があり、分散アーキテクチャでは 10 年の経験があります。

原題: AVFormer: ゼロショット AV-ASR のための固定音声モデルへの視覚の注入、著者: Arsha Nagrani、Paul Hongsuck Seo


<<:  産業オートメーションにおけるコンピュータビジョンの応用と利点

>>:  データ変換ツールにおけるAIの未来

ブログ    
ブログ    
ブログ    

推薦する

13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

マルチモーダル大規模言語モデルにおける視覚情報抽出が不十分な問題に対処するため、ハルビン工業大学(深...

SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

Transformer モデルは、長距離の依存関係とグローバル情報をキャプチャできます。コンピュー...

...

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

近年、高所から物が投げられたり落下したりして負傷する事故が多発しています。水のボトル、スイカの皮、缶...

...

なぜソートするのですか?ソートアルゴリズムのパフォーマンスを向上させる方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。最近、国内ではミャオヤカメラがイン...

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

2018年の初め、アリババは人工知能の分野での最新の成果を発表しました。人工知能に関するトップ学術...

IoT が成功するために AI が必要な理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

人間的な顧客サービスを必要とするのは高齢者だけではない

実名制やビッグデータ認識などの技術を利用することで、高齢者は北京電信のカスタマーサービスに電話する際...

人工知能(AI)の人間的側面を探る

新興技術である AI はこれまで多くの課題に直面しており、今後も直面し続けるでしょう。一方で、消費者...

...

2021年4月のロボット工学分野の重要な動向の概要

ポスト疫病時代において、国内ロボット市場は急速に発展しました。一方、ロボット工学の分野は好調な勢いを...

Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....