CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

CLIP は最も人気のあるビジュアル ベース モデルであり、その適用シナリオには以下が含まれますが、これらに限定されません。

  1. LLM 大規模言語モデルと組み合わせて視覚的なマルチモーダル大規模モデルになります。
  2. 画像生成(Stable Diffusion)と点群生成(Point-E)の条件モデルとして、画像から3D化を実現します。
  3. テキストから 3D への変換を実現するために NeRF の最適化方向をガイドするために使用されます。
  4. オープンカテゴリの認識と検出自体に使用されます。

しかし、CLIP は画像全体を入力として特徴抽出を行う必要があり、任意の指定領域に焦点を合わせることはできません。しかし、自然な 2D 画像には、さまざまなオブジェクト、パーツ、物が含まれていることがよくあります。ユーザーまたは検出モデルが焦点を合わせる領域を指定できれば、画像エンコード処理中に焦点を合わせるオブジェクトを決定できるため、CLIP モデルの制御性と領域検出機能が向上します。この目的のために、上海交通大学、復旦大学、香港中文大学、マカオ大学などの学者は、注意が必要な領域を決定するために、元の CLIP モデルの 3 つの RGB チャネルに基づいて追加の 4 番目のアルファ チャネルを導入した Alpha-CLIP モデルを提案しました。

写真

論文リンク: https://arxiv.org/abs/2312.03818 プロジェクトホームページ: https://aleafy.github.io/alpha-clip コードリンク: https://github.com/SunzeY/AlphaCLIP

Alpha-CLIP をトレーニングするために数千万の「RGBA 4 チャンネル画像テキスト ペア」を構築することにより、Alpha-CLIP は ImageNet 上の元のフル画像検出機能を維持するだけでなく、ユーザーが指定した任意の領域を強調表示することもできます。 Alpha-CLIP の応用シナリオを以下に紹介します。

図1 Alpha-CLIPの使用シナリオの概要

画像分類

図に示すように、ImagNet 画像の場合、研究者はアルファマップを通じて CLIP を制御して魚や漁師に焦点を合わせることができます。

写真


写真

研究者らは、ImageNet のゼロショット分類を評価基準として使用し、画像全体を識別する際に Alpha-CLIP が元の CLIP の分類精度を維持できることを検証しました。
さらに、注目したい領域の長方形のボックスやマスクを与えると、Alpha-CLIP は分類精度をさらに向上させることができます。

LLM大規模言語モデルとの組み合わせ

写真

主流のLLaVA-1.5のCLIPベースモデルをAlpha-CLIPに置き換えることで、ユーザーは注目が必要な領域をブラシでマークするだけで、指定された領域を操作できるようになります。

写真

定量的な実験では、研究者らは LLaVA を通じて MLLM の領域キャプション機能をテストしました。 RefCOCO と VG をそれぞれ微調整することで、SOTA 領域キャプション スコアを達成しました。

写真

安定拡散との組み合わせ

写真

Stable-Diffusionは現在主流の2D画像生成モデルです。そのImage Variationバージョンでは「画像から画像生成」を実現でき、画像エンコーダもCLIPモデルです。このモデルを Alpha-CLIP に置き換えることで、より複雑な画像内で指定されたオブジェクトを生成することが可能になります (背景をより適切に保持しながら)。
上の図に示すように、オリジナルの CLIP を使用すると、ライオンとトラの両方の特徴を持つ「ライガー」が生成されますが、Alpha-CLIP は 2 つのオブジェクトをうまく区別できるため、Stable Diffusion モデルがより具体的な画像を生成するように誘導します。

写真

Point-Eとの統合

写真

Point-E は、Open-AI のオープンソース ポイント クラウド拡散モデルであり、イメージ エンコーダーを元の CLIP から Alpha-CLIP に置き換えることで、イメージから 3D への変換とテキストから 3D への変換をサポートします。
ユーザーが任意の領域に集中できるようにサポートし、失われた「ハンドル」と「シールドのクロス」を復元します。

写真

注意マップの視覚化

この研究では、Alpha-CLIP の注意を視覚化して、Alpha-CLIP がユーザー定義のアルファマップにより注意を払うかどうかを調べます。ビジュアルエンコーダーの最後のTransformerブロックにある[CLS]トークンのアテンションマップを検査します。視覚化には、16 個のアテンション ヘッドを備えた ViT-L/14 モデルを採用しています。

写真

公平な比較のため、5 番目と 16 番目の注意ヘッドの注意マップが視覚化に使用されます。これらの 2 つの特徴マップが 16 個のヘッドの中で最も顕著であることがわかるためです。結果は下の図に示されています。この視覚化により、Alpha-CLIP が焦点を当てる領域にさらに注意を払っていること、さらに重要なことに、元の CLIP 機能の場所の 2D 位置情報を保持しながら損傷を与えることなく焦点を当てていることが確認できます。

結論は

この論文で紹介されている研究では、関心領域を指定するための追加のアルファ チャネルを導入する Alpha-CLIP モデルを提案しています。

Alpha-CLIP は、数百万の RGBA 領域とテキストのペアをトレーニングすることで、優れた領域注目機能を発揮するだけでなく、出力空間が元の CLIP モデルと一致することも保証します。この一貫性により、Alpha-CLIP は簡単に置き換えることができ、CLIP のさまざまな下流アプリケーションにシームレスに統合できます。研究者らは、Alpha-CLIP が特定の関心領域を提供された場合に、より強力なゼロショット認識機能を発揮することを実証し、多くの下流タスクにおけるその有用性を検証しました。 CLIP のアプリケーションはこの記事の範囲をはるかに超えています。研究者たちは、前景領域やマスクの取得が容易な、より多くのシナリオで Alpha-CLIP を適用できるようになることを期待しています。

Alpha-CLIP は、関心領域が必要なさまざまなシナリオで効果的なパフォーマンスを発揮しますが、現在の構造とトレーニング プロセスでは、複数のオブジェクトに焦点を当てたり、異なるオブジェクト間の関係をモデル化したりする機能が制限されます。さらに、現在のトレーニング方法では、アルファ チャネルの一般化が中間値を超えて制限されているため (0 と 1 の 2 つの値しか受け入れられない)、ユーザーは注意の大きさを指定できません。 Alpha-CLIP とオリジナルの CLIP の両方に存在するもう 1 つの制限は、純粋な Transformer 構造のエンコーダ解像度が低いことです。これにより、Alpha-CLIP は小さなオブジェクトを認識して注意を払うことができません。研究者らは、今後の研究でこれらの制限に対処し、CLIP の入力解像度を拡大することを計画しており、これらの将来の方向性が Alpha-CLIP の機能を強化し、さまざまな下流タスクでの有用性を拡大する手段になると考えています。

参照: https://arxiv.org/abs/2312.03818

<<: 

>>:  マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

ブログ    
ブログ    
ブログ    

推薦する

...

AI主導のサイバーセキュリティチームが人間の能力拡張に取り組む

サイバー脅威の範囲は、企業資産や選挙から健康データや物理インフラまで拡大しており、新興技術の予期せぬ...

程偉:スマート交通に投資し、世界クラスのモデル都市を構築する

「滴滴出行がユーザーとドライバーをつなぐ旅行プラットフォームになるだけでなく、人、車、道路、信号、そ...

「2018年中国人工知能サミット」が9月6日に南京で開催される。

人工知能は未来をリードする戦略的技術として、世界の産業構造、経済活動、都市形態、そして人間のライフス...

ビッグデータと人工知能がオンラインゲームをどう変えるのか

2017 年に成熟したと言われる 2 つの技術的進歩があるとすれば、それは間違いなく仮想現実と人工知...

AIは感情に関してより賢くなってきているのでしょうか?人間もそうすべきだ

人々は、一人でいるときと公共の場では行動が大きく異なりますが、基本的な性格は同じままです。観客のいな...

3日でAppleの無料リストのトップに立った「ZAO」、このままでは死んでしまう

8月30日夜、「ZAO」と呼ばれるAI顔変更ソフトウェアがソーシャルメディアを席巻した。ユーザーは正...

生成AIは私たちの生活をどのように変えるのでしょうか?

ChatGpt と Generative AI が登場してほぼ 1 年が経ち、AI ベースのツール...

衝撃の2017年!この10日間は中国の人工知能の時代

2017年にはすでに「残高不足」が発生。今年、中国の人工知能開発は多くの進歩を遂げ、実りある成果を達...

研究者らは従来のコンピューター上で複雑な量子コンピューティングアルゴリズムを実行する

EPFL のジュゼッペ・カルレオ教授とコロンビア大学の大学院生マティヤ・メドビドビッチ氏は、従来のコ...

ソフトウェア配信における機械学習の活用方法

現代のほとんどのソフトウェア チームにとって、ソフトウェアの配信は継続的なプロセスです。ソフトウェア...

AIコアとは何ですか?これら2つの機能はオンラインです

DeepMindとカリフォルニア州サンフランシスコの人工知能研究所は、マルチプレイヤーリアルタイム戦...

中国の建設ロボット軍団がやってくる!

[[408565]]香港のサウスチャイナ・モーニング・ポストに6月29日に掲載された記事「中国の道...

Java プログラミング スキル - データ構造とアルゴリズム「ハフマン コーディング」

基本的な紹介ハフマン符号化は、(ハフマンコーディング) とも訳されます。ハフマン符号化は、ハフマンコ...

...