拡散モデル画像理解力がSOTAをリフレッシュ! ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

拡散モデル画像理解力がSOTAをリフレッシュ! ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

テキストから画像への (T2I) 拡散モデルは、大規模な画像とテキストのペアで事前トレーニングされているため、高解像度の画像を生成する優れた能力を示しています。

当然、次のような疑問が生じます。拡散モデルは視覚知覚タスクを解決するために使用できるのでしょうか?

最近、ByteDance と復旦大学の技術チームが、拡散モデルを使用して視覚認識タスクを処理するというシンプルで効果的なソリューションを提案しました。

論文アドレス: https://arxiv.org/abs/2312.14733

オープンソースプロジェクト: https://github.com/fudan-zvg/meta-prompts

チームの重要な洞察は、学習可能なメタプロンプトを事前トレーニング済みの拡散モデルに導入して、特定の知覚タスクに適した特徴を抽出することです。

技術紹介

研究チームは、テキストから画像への拡散モデルを特徴抽出器として視覚知覚タスクに適用しました。

入力画像はまず、画像圧縮のために VQVAE エンコーダーに渡されます。このステップでは、画像の解像度を元のサイズの 1/8 に縮小し、潜在空間に特徴表現を生成します。 VQVAE エンコーダーのパラメーターは固定されており、その後のトレーニングには影響しないことに注意してください。

次に、ノイズのない画像が UNet に送られ、特徴が抽出されます。さまざまなタスクに適応するために、UNet は変調されたタイムステップ埋め込みと複数のメタプロンプトを同時に受信して、形状の一貫性のある機能を生成します。

この方法では、プロセス全体を通じて、特徴表現を強化するために、反復的な改良のステップを実行します。これにより、UNet 内のさまざまなレイヤーの機能の相互作用と融合が向上します。サイクルでは、UNet のパラメータは特定の学習可能な時間変調機能によって調整されます。

最後に、UNet によって生成されたマルチスケール特徴は、ターゲット ビジョン タスク用に特別に設計されたデコーダーに入力されます。

学習可能なメタプロンプトの設計

安定拡散モデルは、UNet アーキテクチャを採用し、クロスアテンションを通じてテキストキューを画像の特徴に統合して、テキストボーン画像を実現します。この統合により、生成された画像が文脈的および意味的に正確であることが保証されます。

しかし、視覚認識タスクの多様性はこのカテゴリを超えており、画像理解にはさまざまな課題があり、ガイダンスとしてのテキスト情報が不足していることが多く、テキスト主導のアプローチが実用的でない場合があります。

この課題に対処するために、技術チームのアプローチでは、より多様な戦略を採用しています。外部のテキスト プロンプトに頼るのではなく、メタ プロンプトと呼ばれる内部の学習可能なメタ プロンプトを設計し、これを拡散モデルに統合して認識タスクに適応させます。

メタプロンプトはマトリックス の形式で表されます。ここで、 はメタプロンプトの数を表し、 は次元を表します。メタプロンプトを使用した知覚拡散モデルでは、データセットのカテゴリラベルや画像のキャプションなどの外部テキストプロンプトが不要になり、最終的なテキストプロンプトを生成するために事前トレーニング済みのテキストエンコーダーも必要ありません。

メタプロンプトは、ターゲットタスクとデータセットに応じてエンドツーエンドでトレーニングされ、UNet のノイズ除去用に特別に調整された適応条件を確立できます。これらのメタプロンプトには、特定のタスクに適応した豊富なセマンティック情報が含まれています。例えば:

- セマンティックセグメンテーションタスクでは、メタプロンプトはカテゴリを認識する能力を効果的に示し、同じメタプロンプトは同じカテゴリの機能をアクティブにする傾向があります。

- 深度推定タスクでは、メタプロンプトは深度知覚を示し、活性化値は深度に応じて変化し、プロンプトが一定の距離にあるオブジェクトに焦点を合わせることができるようになります。

- ポーズ推定では、メタプロンプトはさまざまな機能セット、特にキーポイントの認識を示し、人間のポーズ検出に役立ちます。

これらの定性的な結果を合わせると、さまざまなタスクにわたるタスク関連のアクティベーションに対して、私たちが提案したメタプロンプトの有効性が強調されます。

テキストプロンプトの代替として、メタプロンプトはテキストから画像への拡散モデルと視覚知覚タスクの間のギャップを埋めます。

メタキューに基づく特徴の再結合

拡散モデルは、その固有の設計により、出力層に近づくにつれてより細かい低レベルの詳細に焦点を当てた、ノイズ除去 UNet 内のマルチスケール機能を生成します。

このような低レベルの詳細は、質感や細かさを重視するタスクには十分ですが、視覚知覚タスクでは、低レベルの詳細と高レベルの意味的解釈の両方を含むコンテンツを理解することが求められることがよくあります。

したがって、豊富な機能を生成することが必要であるだけでなく、これらのマルチスケール機能のどの組み合わせが現在のタスクに最適な表現を提供できるかを決定することも非常に重要です。

ここでメタプロンプトが役立ちます。

これらのプロンプトは、使用されるデータセットに固有のコンテキスト知識をトレーニング中に保持します。このコンテキスト知識により、メタプロンプトは機能の再結合のフィルターとして機能し、UNet によって生成された多数の機能からタスクに最も関連性の高い機能を選択するように機能選択プロセスをガイドできます。

チームはドット積を使用して、UNet のマルチスケール機能の豊富さとメタプロンプトのタスク適応性を組み合わせました。

マルチスケールの特徴を考慮すると、特徴マップの高さと幅を表します。メタプロンプト。各スケールでの再配置された特徴の計算は次のとおりです。

最後に、メタプロンプトによってフィルタリングされたこれらの機能は、タスク固有のデコーダーに送られます。

学習可能な時間変調特徴に基づく反復改良

拡散モデルでは、ノイズを追加し、その後に複数段階のノイズ除去を行う反復プロセスが、画像生成のフレームワークを構成します。

このメカニズムにヒントを得て、技術チームは視覚認識タスクのためのシンプルな反復改良プロセスを設計しました。出力機能にノイズを追加する代わりに、UNet の出力機能が直接 UNet にループされます。

同時に、モデルがループを通過すると入力特徴の分布が変化するが、UNet のパラメータは変化しないという不整合の問題を解決するために、技術チームは各ループに学習可能な固有のタイムステップ埋め込みを導入し、UNet のパラメータを調整しました。

これにより、ネットワークがさまざまなステップで入力機能の変動に対して適応性と応答性を維持し、機能抽出プロセスを最適化し、視覚認識タスクにおけるモデルのパフォーマンスが向上します。

結果は、この方法が複数の知覚タスク データセットで最高の結果を達成したことを示しています。

アプリケーションの実装と展望

この記事で提案された方法と技術は幅広い応用の見込みがあり、多くの分野で技術開発と革新を促進することができます。

  1. 視覚認識タスクの改善:この研究により、画像のセグメンテーション、深度推定、姿勢推定などのさまざまな視覚認識タスクのパフォーマンスを向上させることができます。これらの改善は、自動運転、医療画像解析、ロボット視覚システムなどの分野に適用できます。
  2. 強化されたコンピューター ビジョン モデル:提案された手法により、明示的なテキスト記述がない場合でも、複雑なシーンを処理する際のコンピューター ビジョン モデルの精度と効率が向上します。これは、画像コンテンツの理解などのアプリケーションにとって特に重要です。
  3. クロスドメインアプリケーション:この研究の方法と結果は、芸術的創造、仮想現実、拡張現実などのクロスドメイン研究とアプリケーションに影響を与え、画像やビデオの品質とインタラクティブ性を向上させることができます。
  4. 長期的な展望:技術が進歩するにつれて、これらの方法はさらに改良され、より高度な画像生成およびコンテンツ理解技術が生まれる可能性があります。

チームについて

知能創造チームはByteDanceのAIおよびマルチメディア技術センターであり、コンピュータービジョン、オーディオおよびビデオ編集、特殊効果処理などの技術分野をカバーしています。同社の豊富なビジネスシナリオ、インフラストラクチャリソース、および技術協力環境の助けを借りて、最先端のアルゴリズム-エンジニアリングシステム-製品のチェーン全体のクローズドループを実現し、社内のビジネスに業界をリードするコンテンツ理解、コンテンツ作成、インタラクティブエクスペリエンスと消費機能、およびさまざまな形式の業界ソリューションを提供することを目指しています。

現在、知能創造チームはByteDance傘下のクラウドサービスプラットフォーム「Volcano Engine」を通じて、企業向けに技術力とサービスを開放している。より大規模なモデル アルゴリズム関連のポジションがさらに募集されています。表示するには、[元のテキストを読む]をクリックしてください

<<:  AIは学習しません!ネイチャー誌の最新研究が人工知能のブラックボックスを解読

>>:  「ヴィンセントピクチャー」がまたバージョンアップしました!パーソナライズされたリファレンスを学習し、無制限で多様な画像を生成し、おもちゃの建物を簡単に設計します

ブログ    

推薦する

Google、Facebook、Baiduはディープラーニングのフレームワークをめぐって競争している

[[226860]]タイトル画像提供:Visual China最近、海外の多くの企業で興味深い変化が...

ジェネレーティブ AI がサイバーセキュリティのスキルギャップに与える影響

サイバーセキュリティ分野の仕事は需要が高く、有能な従業員が求められています。アメリカ国立標準技術研究...

...

IDC、2021年の中国の人工知能市場に関する10の予測を発表

インターナショナル・データ・コーポレーション(IDC)は、「IDC FutureScape:世界の人...

...

烏鎮百度脳オープンデーが開催、EasyDL業界インテリジェンスイノベーションコンペティションを開始

顔認識技術はAI時代に利便性をもたらすだけでなく、効率も向上させます。 8月21日、百度ブレインオー...

顔をスキャンして食べて、拭いてから帰る、アリババの未来の人工知能レストランがお披露目!

[[218392]]毎年、最も注目を集めるのはジャック・マー氏だ。彼は住宅賃貸の保証金を免除したり...

...

「トランスフォーマー チャレンジャー」マンバはMacBookでも動く! GitHub は半日で 500 以上のスターを獲得しました

「トランスフォーマーの挑戦者」MambaがMacBookで実行できるようになりました!誰かが Git...

音声認識技術は急速に発展しており、その規模は今後5年間で300億近くに達するだろう。

現在、科学技術の発展に伴い、人工知能産業は急速に成長し、あらゆる分野の変革における重要な要素となって...

TensorFlow 2.0「開発者プレビュー」が利用可能になりました

TensorFlow 2.0 プレビューが利用可能になりました。最近、Google AI チームのメ...

デアデビルが来た!バットセンスAIは、スマートフォンが音を聞いて3D画像を生成できるようにする

英国の科学者たちは、スマートフォンやノートパソコンなどの日常的な物に、デアデビルと同じくらい強力なコ...

AIoT: 次世代コンバージェンスの利点と用途を理解する

人工知能 (AI) とモノのインターネット (IoT) は、過去 10 年間を定義してきました。ビッ...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...