拡散モデル画像理解力がSOTAをリフレッシュ！ ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

テキストから画像への (T2I) 拡散モデルは、大規模な画像とテキストのペアで事前トレーニングされているため、高解像度の画像を生成する優れた能力を示しています。

当然、次のような疑問が生じます。拡散モデルは視覚知覚タスクを解決するために使用できるのでしょうか?

最近、ByteDance と復旦大学の技術チームが、拡散モデルを使用して視覚認識タスクを処理するというシンプルで効果的なソリューションを提案しました。

論文アドレス: https://arxiv.org/abs/2312.14733

オープンソースプロジェクト: https://github.com/fudan-zvg/meta-prompts

チームの重要な洞察は、学習可能なメタプロンプトを事前トレーニング済みの拡散モデルに導入して、特定の知覚タスクに適した特徴を抽出することです。

技術紹介

研究チームは、テキストから画像への拡散モデルを特徴抽出器として視覚知覚タスクに適用しました。

入力画像はまず、画像圧縮のために VQVAE エンコーダーに渡されます。このステップでは、画像の解像度を元のサイズの 1/8 に縮小し、潜在空間に特徴表現を生成します。 VQVAE エンコーダーのパラメーターは固定されており、その後のトレーニングには影響しないことに注意してください。

次に、ノイズのない画像が UNet に送られ、特徴が抽出されます。さまざまなタスクに適応するために、UNet は変調されたタイムステップ埋め込みと複数のメタプロンプトを同時に受信して、形状の一貫性のある機能を生成します。

この方法では、プロセス全体を通じて、特徴表現を強化するために、反復的な改良のステップを実行します。これにより、UNet 内のさまざまなレイヤーの機能の相互作用と融合が向上します。サイクルでは、UNet のパラメータは特定の学習可能な時間変調機能によって調整されます。

最後に、UNet によって生成されたマルチスケール特徴は、ターゲットビジョンタスク用に特別に設計されたデコーダーに入力されます。

学習可能なメタプロンプトの設計

安定拡散モデルは、UNet アーキテクチャを採用し、クロスアテンションを通じてテキストキューを画像の特徴に統合して、テキストボーン画像を実現します。この統合により、生成された画像が文脈的および意味的に正確であることが保証されます。

しかし、視覚認識タスクの多様性はこのカテゴリを超えており、画像理解にはさまざまな課題があり、ガイダンスとしてのテキスト情報が不足していることが多く、テキスト主導のアプローチが実用的でない場合があります。

この課題に対処するために、技術チームのアプローチでは、より多様な戦略を採用しています。外部のテキストプロンプトに頼るのではなく、メタプロンプトと呼ばれる内部の学習可能なメタプロンプトを設計し、これを拡散モデルに統合して認識タスクに適応させます。

メタプロンプトはマトリックスの形式で表されます。ここで、はメタプロンプトの数を表し、は次元を表します。メタプロンプトを使用した知覚拡散モデルでは、データセットのカテゴリラベルや画像のキャプションなどの外部テキストプロンプトが不要になり、最終的なテキストプロンプトを生成するために事前トレーニング済みのテキストエンコーダーも必要ありません。

メタプロンプトは、ターゲットタスクとデータセットに応じてエンドツーエンドでトレーニングされ、UNet のノイズ除去用に特別に調整された適応条件を確立できます。これらのメタプロンプトには、特定のタスクに適応した豊富なセマンティック情報が含まれています。例えば：

- セマンティックセグメンテーションタスクでは、メタプロンプトはカテゴリを認識する能力を効果的に示し、同じメタプロンプトは同じカテゴリの機能をアクティブにする傾向があります。

- 深度推定タスクでは、メタプロンプトは深度知覚を示し、活性化値は深度に応じて変化し、プロンプトが一定の距離にあるオブジェクトに焦点を合わせることができるようになります。

- ポーズ推定では、メタプロンプトはさまざまな機能セット、特にキーポイントの認識を示し、人間のポーズ検出に役立ちます。

これらの定性的な結果を合わせると、さまざまなタスクにわたるタスク関連のアクティベーションに対して、私たちが提案したメタプロンプトの有効性が強調されます。

テキストプロンプトの代替として、メタプロンプトはテキストから画像への拡散モデルと視覚知覚タスクの間のギャップを埋めます。

メタキューに基づく特徴の再結合

拡散モデルは、その固有の設計により、出力層に近づくにつれてより細かい低レベルの詳細に焦点を当てた、ノイズ除去 UNet 内のマルチスケール機能を生成します。

このような低レベルの詳細は、質感や細かさを重視するタスクには十分ですが、視覚知覚タスクでは、低レベルの詳細と高レベルの意味的解釈の両方を含むコンテンツを理解することが求められることがよくあります。

したがって、豊富な機能を生成することが必要であるだけでなく、これらのマルチスケール機能のどの組み合わせが現在のタスクに最適な表現を提供できるかを決定することも非常に重要です。

ここでメタプロンプトが役立ちます。

これらのプロンプトは、使用されるデータセットに固有のコンテキスト知識をトレーニング中に保持します。このコンテキスト知識により、メタプロンプトは機能の再結合のフィルターとして機能し、UNet によって生成された多数の機能からタスクに最も関連性の高い機能を選択するように機能選択プロセスをガイドできます。

チームはドット積を使用して、UNet のマルチスケール機能の豊富さとメタプロンプトのタスク適応性を組み合わせました。

マルチスケールの特徴を考慮すると、特徴マップの高さと幅を表します。メタプロンプト。各スケールでの再配置された特徴の計算は次のとおりです。

最後に、メタプロンプトによってフィルタリングされたこれらの機能は、タスク固有のデコーダーに送られます。

学習可能な時間変調特徴に基づく反復改良

拡散モデルでは、ノイズを追加し、その後に複数段階のノイズ除去を行う反復プロセスが、画像生成のフレームワークを構成します。

このメカニズムにヒントを得て、技術チームは視覚認識タスクのためのシンプルな反復改良プロセスを設計しました。出力機能にノイズを追加する代わりに、UNet の出力機能が直接 UNet にループされます。

同時に、モデルがループを通過すると入力特徴の分布が変化するが、UNet のパラメータは変化しないという不整合の問題を解決するために、技術チームは各ループに学習可能な固有のタイムステップ埋め込みを導入し、UNet のパラメータを調整しました。

これにより、ネットワークがさまざまなステップで入力機能の変動に対して適応性と応答性を維持し、機能抽出プロセスを最適化し、視覚認識タスクにおけるモデルのパフォーマンスが向上します。

結果は、この方法が複数の知覚タスクデータセットで最高の結果を達成したことを示しています。

アプリケーションの実装と展望

この記事で提案された方法と技術は幅広い応用の見込みがあり、多くの分野で技術開発と革新を促進することができます。

視覚認識タスクの改善:この研究により、画像のセグメンテーション、深度推定、姿勢推定などのさまざまな視覚認識タスクのパフォーマンスを向上させることができます。これらの改善は、自動運転、医療画像解析、ロボット視覚システムなどの分野に適用できます。
強化されたコンピュータービジョンモデル:提案された手法により、明示的なテキスト記述がない場合でも、複雑なシーンを処理する際のコンピュータービジョンモデルの精度と効率が向上します。これは、画像コンテンツの理解などのアプリケーションにとって特に重要です。
クロスドメインアプリケーション:この研究の方法と結果は、芸術的創造、仮想現実、拡張現実などのクロスドメイン研究とアプリケーションに影響を与え、画像やビデオの品質とインタラクティブ性を向上させることができます。
長期的な展望:技術が進歩するにつれて、これらの方法はさらに改良され、より高度な画像生成およびコンテンツ理解技術が生まれる可能性があります。

チームについて

知能創造チームはByteDanceのAIおよびマルチメディア技術センターであり、コンピュータービジョン、オーディオおよびビデオ編集、特殊効果処理などの技術分野をカバーしています。同社の豊富なビジネスシナリオ、インフラストラクチャリソース、および技術協力環境の助けを借りて、最先端のアルゴリズム-エンジニアリングシステム-製品のチェーン全体のクローズドループを実現し、社内のビジネスに業界をリードするコンテンツ理解、コンテンツ作成、インタラクティブエクスペリエンスと消費機能、およびさまざまな形式の業界ソリューションを提供することを目指しています。

現在、知能創造チームはByteDance傘下のクラウドサービスプラットフォーム「Volcano Engine」を通じて、企業向けに技術力とサービスを開放している。より大規模なモデルアルゴリズム関連のポジションがさらに募集されています。表示するには、[元のテキストを読む]をクリックしてください。

<<: AIは学習しません！ネイチャー誌の最新研究が人工知能のブラックボックスを解読

>>: 「ヴィンセントピクチャー」がまたバージョンアップしました！パーソナライズされたリファレンスを学習し、無制限で多様な画像を生成し、おもちゃの建物を簡単に設計します