馬毅教授の新作:ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か?

馬毅教授の新作:ホワイトボックスViTが「セグメンテーション創発」に成功、経験的ディープラーニングの時代は終焉か?

トランスフォーマーベースのビジュアルベースモデルは、セグメンテーションや検出などのさまざまな下流タスクで非常に優れたパフォーマンスを発揮し、DINO などのモデルは自己教師ありトレーニング後にセマンティックセグメンテーションプロパティを備えて登場しました。

しかし驚くべきことに、教師あり分類用にトレーニングされた視覚的な Transformer モデルには、同様の新たな機能は現れません。

最近、Ma Yi教授のチームは、Transformerアーキテクチャに基づくモデルにおけるセグメンテーション能力の出現が、単に複雑な自己教師あり学習メカニズムの結果なのか、それともモデルアーキテクチャの適切な設計を通じてより一般的な条件下で同じ出現が達成できるのかを調査しました。

コードリンク: https://github.com/Ma-Lab-Berkeley/CRATE

論文リンク: https://arxiv.org/abs/2308.16271

広範囲にわたる実験を通じて、データ分布の低次元構造を明示的にモデル化して追求する設計のホワイトボックス Transformer モデル CRATE を使用すると、最小限の教師ありトレーニング レシピで全体的および部分レベルのセグメンテーション プロパティがすでに出現することを実証しました。

階層的な細分化された分析により、出現する特性がホワイトボックス ネットワークの設計された数学的機能性を強く裏付けることが示されました。私たちの研究結果は、高性能かつ数学的に完全に解釈可能なホワイトボックス ベース モデルを設計するための道筋を示唆しています。

馬怡教授はまた、ディープラーニングの研究は経験的な設計から理論的な指導へと徐々に移行していくだろうと述べた。

ホワイトボックスCRATEの創発特性

DINOのセグメンテーション出現能力

インテリジェント システムにおける表現学習は、世界の高次元のマルチモーダル センサー データ (画像、言語、音声) を、その本質的な低次元構造を維持しながら、よりコンパクトな形式に変換し、効率的な認識 (分類など)、グループ化 (セグメンテーションなど)、および追跡を可能にすることを目的としています。

ディープラーニング モデルのトレーニングでは通常、データ駆動型のアプローチが採用され、大規模なデータを入力して自己教師型の方法で学習します。

ビジュアル ベース モデルの中でも、自己教師あり Transformer アーキテクチャを備えた DINO モデルは、驚くべき創発能力を発揮します。教師ありセグメンテーション トレーニングがなくても、ViT は明示的なセマンティック セグメンテーション情報を認識できます。

その後の研究では、このセグメンテーション情報を DINO モデルでどのように活用するかが研究され、セグメンテーションや検出などの下流タスクで最先端のパフォーマンスが達成されました。また、DINO でトレーニングされた ViT の最後から 2 番目のレイヤーの特徴が、前景、背景、オブジェクトの境界の区別など、視覚入力の顕著な情報と強く相関していることを証明する研究もあり、これにより、画像セグメンテーションなどのタスクのパフォーマンスが向上します。

セグメンテーション特性を出現させるために、DINO はトレーニング中に自己教師あり学習、知識蒸留、重み平均化を巧みに組み合わせる必要があります。

DINO に導入された各コンポーネントがセグメンテーション マスクの出現に必須であるかどうかは不明です。DINO もバックボーンとして ViT アーキテクチャを採用していますが、分類タスクでトレーニングされた通常の教師あり ViT モデルではセグメンテーションの出現動作は観察されません。

CRATEの登場

DINO の成功を基に、研究者たちは、Transformer のような視覚モデルで新たな特性を獲得するために、複雑な自己教師あり学習パイプラインが必要かどうかを調べたいと考えました。

研究者たちは、Transformer モデルのセグメンテーション特性を促進するための有望なアプローチは、入力データの構造を考慮して Transformer モデル アーキテクチャを設計することであり、これは表現学習の古典的な方法と最新のデータ駆動型ディープラーニング フレームワークの組み合わせでもあると考えています。

現在主流のTransformerモデルと比較すると、この設計方法はホワイトボックスTransformerモデルとも呼ばれます。

研究者らは、馬毅教授のグループのこれまでの研究に基づいて、CRATEモデルのホワイトボックスアーキテクチャに関する広範な実験を実施し、CRATEのホワイトボックス設計が自己注意マップにおけるセグメンテーション特性の出現の原因であることを実証しました。

定性評価

研究者らは、[CLS]トークンベースのアテンショングラフ法を使用してモデルを説明および視覚化し、CRATE内のクエリキー値マトリックスがすべて同じであることを発見しました。

CRATE モデルの自己注意マップは、入力画像のセマンティクスに対応できることが分かります。モデルの内部ネットワークは、各画像に対して明確なセマンティックセグメンテーションを実行し、DINO モデルと同様の効果を実現します。

対照的に、教師あり分類タスクでトレーニングされた通常の ViT は、同様のセグメンテーション特性を示しません。

視覚画像から学習されたブロック単位の深層特徴に関する以前の研究に続いて、CRATE モデルと ViT モデルの深層トークン表現に対して主成分分析 (PCA) を実行します。

CRATE は、セグメンテーション監視トレーニングを行わなくても、画像内のオブジェクトの境界をキャプチャできることがわかります。

さらに、主成分はトークンやオブジェクトの類似部分の特徴の配置も示します。たとえば、赤チャネルは馬の脚に対応します。

教師あり ViT モデルの PCA 視覚化はまったく構造化されていません。

定量評価

研究者らは、既存のセグメンテーションおよびオブジェクト検出技術を使用して、CRATE から得られるセグメンテーション特性を評価しました。

自己注意マップから、CRATE が明確な境界を持つオブジェクト レベルのセマンティクスを明示的にキャプチャしていることがわかります。セグメンテーションの品質を定量的に測定するために、研究者は自己注意マップを使用してセグメンテーション マスクを生成し、実際のマスク間の標準 mIoU (平均交差和集合) と比較しました。

実験結果から、CRATE は視覚スコアと mIOU スコアの両方で ViT を大幅に上回っていることがわかります。これは、CRATE の内部表現がセグメンテーション マスク生成タスクに対してより効果的であることを示しています。

物体検出と細粒度セグメンテーション

CRATE によってキャプチャされた豊富な意味情報をさらに検証および評価するために、研究者は効率的なオブジェクト検出およびセグメンテーション手法である MaskCut を採用し、手動注釈なしの自動評価モデルを取得しました。このモデルは、CRATE によって学習されたトークン表現に基づいて、画像からより細かいセグメンテーションを抽出できます。

COCO val2017 のセグメンテーション結果から、検出とセグメンテーションの両方の指標において、CRATE の内部表現が教師あり ViT よりも優れていることがわかります。教師あり ViT 機能を備えた MaskCut では、場合によってはセグメンテーション マスクをまったく生成できないこともあります。

CRATEのセグメンテーション機能のホワイトボックス分析

CRATEにおける深さの役割

CRATE の各レイヤーは、スパース レート削減を最適化し、トークン配布をコンパクトで構造化された形式に変換するという同じ概念的な目的に従って設計されています。

CRATE におけるセマンティックセグメンテーション機能の出現が「表現 Z における類似したセマンティックカテゴリに属する​​トークンのクラスタリング」に似ていると仮定すると、深さが増すにつれて CRATE のセグメンテーションパフォーマンスが向上することが期待されます。

これをテストするために、研究者は MaskCut パイプラインを使用して、異なるレイヤーにわたる内部表現のセグメンテーション パフォーマンスを定量的に評価し、PCA 視覚化を適用して、セグメンテーションが深度とともにどのように現れるかを理解しました。

実験結果から、より深い層からの表現を使用するとセグメンテーション スコアが向上することがわかります。これは、CRATE の増分最適化設計と非常に一致しています。

対照的に、ViT-B/8 のパフォーマンスは後の層でわずかに向上しますが、セグメンテーション スコアは CRATE よりも大幅に低くなります。PCA の結果は、CRATE のより深い層から抽出された表現が徐々に前景オブジェクトに焦点を当て、テクスチャ レベルの詳細をキャプチャできることを示しています。

CRATEのアブレーション実験

CRATE の注意ブロック (MSSA) と MLP ブロック (ISTA) は、どちらも ViT の注意ブロックとは異なります。

各コンポーネントが CRATE の出現セグメンテーション特性に与える影響を理解するために、研究者は 3 つの CRATE バリアントを選択しました。CRATE、CRATE-MHSA、CRATE-MLP はそれぞれ ViT の注意ブロック (MHSA) と MLP ブロックを表します。

研究者らは、ImageNet-21k データセットに同じ事前トレーニング設定を適用し、粗いセグメンテーション評価とマスクセグメンテーション評価を適用して、さまざまなモデルのパフォーマンスを定量的に比較しました。

実験結果によると、CRATE はすべてのタスクで他のモデル アーキテクチャを大幅に上回っています。MHSA と MSSA のアーキテクチャの違いは小さいですが、ViT の MHSA を CRATE の MSSA に置き換えるだけで、ViT (つまり、VOC Seg) の粗いセグメンテーション パフォーマンスが大幅に向上し、ホワイト ボックス設計の有効性が証明されています。

注意ヘッドの意味特性の特定

[CLS] トークンと画像パッチ トークン間の自己注意マップには、明確なセグメンテーション マスクが表示されます。直感的に、各注意ヘッドはデータのいくつかの特徴を捉えることができるはずです。

研究者らはまず CRATE モデルに画像を入力し、次に人間に意味があると思われる 4 つの注意ヘッドを検査して選択させ、その後、他の入力画像上のこれらの注意ヘッドの自己注意マップを視覚化しました。

各注意ヘッドがオブジェクトの異なる部分や異なるセマンティクスをキャプチャしていることがわかります。たとえば、最初の列に示されている注意ヘッドはさまざまな動物の脚をキャプチャでき、最後の列に示されている注意ヘッドは耳と頭をキャプチャします。

視覚入力を部分全体階層に解析するこの機能は、変形可能な部分モデルとカプセル ネットワークの公開以来、認識アーキテクチャの目標であり、ホワイト ボックス CRATE モデルにもこの機能があります。

<<:  ChatGPT に複数のバージョンのコンテンツを入力して一度に選択できるようにする方法

>>:  チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

ブログ    

推薦する

...

...

マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

12月27日、テスラのCEOイーロン・マスク氏が新たに設立したAIスタートアップ企業xAIは、競合他...

...

...

人工知能に関する10のよくある質問への回答

人工知能は今世紀の主要な話題の一つです。 AI の能力と無限の可能性は、多くの興味深い会話や議論を生...

セキュリティ分野におけるドローン技術応用の現状

[[422011]] 2013年、バハマで仕事をしていたとき、私は現在ドローンとして知られているもの...

人工知能は学習を通じて人類を自然災害から救うことができます。

通常、人間が機械を作るのは、達成するのが難しいタスクを人間が完了するのを助けるためだけです。自然災害...

最新のClaude2.1とLlama 2をご利用いただけます。アマゾンが生成型AI開発の参入障壁を下げる

良いニュースです。生成 AI アプリケーションの敷居が大幅に下がりました。先ほど、Amazon We...

2030 年までに人工知能はどのようになるでしょうか?

[[378797]]画像ソース: unsplashマッキンゼー・グローバル・インスティテュートの調...

機械学習インフラストラクチャを Python ではなく Go で記述する理由は何ですか?

[[314943]] Python が機械学習プロジェクトで人気のある言語であることは間違いありま...

我が国の人工知能市場の規模は2022年に3705億元に達すると推定されている。

人工知能は、機械を通じて人間の思考と意思決定をシミュレートすることに重点を置いたコンピューターサイエ...

...