Transformer を画像セマンティックセグメンテーションに使用し、最先端の畳み込み手法を上回るパフォーマンスを実現

Transformer を画像セマンティックセグメンテーションに使用し、最先端の畳み込み手法を上回るパフォーマンスを実現

[[400873]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

周知のとおり、画像セマンティックセグメンテーションを実行する場合、画像は一連のパッチにエンコードされますが、これらのパッチはぼやけていることが多く、正しくセグメント化するにはコンテキスト情報が必要になります。

したがって、コンテキスト モデリングは、画像セマンティック セグメンテーションのパフォーマンスにとって非常に重要です。

畳み込みネットワークに基づくこれまでの方法とは異なり、フランスの研究チームは異なるアプローチを採用しTransformerのみを使用するセマンティックセグメンテーション方法を提案しました。

最先端の畳み込み法">

この方法は「優れ」ており、画像の全体的なコンテキスト情報を非常にうまくキャプチャできます。

最先端の畳み込み法">

ご存知のとおり、素晴らしい成果を上げている FCN (完全畳み込みネットワーク) でさえ、「グローバル画像情報へのアクセスが制限される」という問題があります。 (畳み込み構造は現在、画像セマンティックセグメンテーションにおいて破ることのできない限界がある)

今回、この方法は、困難な ADE20K データセットで最も高度な畳み込み方法よりも優れたパフォーマンスを発揮しました。

[[400874]]最先端の畳み込み法">

Transformer はコンピューター ビジョンの分野でますます使用されるようになり、その結果はますます成功を収めていると言わざるを得ません。

では、今回非常に優れたパフォーマンスを示した Transformer のセマンティック セグメンテーションでは、何か別の「レシピ」が使用されたのでしょうか?

Vision Transformerの使用

そうです、最終的に Segmenter と名付けられたこのセマンティック セグメンテーション モデルは、主に、昨年 10 月に誕生したコンピューター ビジョン分野の「新参者」Transformer、 Vision Transformer (略称 ViT) に基づいています。

ViT はどれくらい良いですか?

ViT は純粋な Transformer アーキテクチャを使用しており、入力用に画像を複数のパッチに分割します。多くの画像分類タスクにおけるそのパフォーマンスは、最先端の畳み込みネットワークに劣りません。

欠点は、トレーニング データ セットが小さい場合、パフォーマンスがあまり良くないことです。

Segmenter は、純粋な Transformer エンコーダー/デコーダー アーキテクチャとして、モデルのすべてのレイヤーでグローバル画像コンテキストを活用します。

最新の ViT 研究結果に基づいて、画像はパッチに分割され、線形埋め込みシーケンスにマッピングされ、エンコーダーによってエンコードされます。次に、マスク トランスフォーマーは、エンコーダーとクラス埋め込みの出力をデコードし、アップサンプリング後に Argmax を適用して各ピクセルを 1 つずつ分類し、最終的なピクセル分割マップを出力します。

以下はモデル アーキテクチャの概略図です。

最先端の畳み込み法">

デコード段階では、画像パッチとクラス埋め込みを共同で処理する簡単な方法を採用しています。デコーダーのマスクトランスフォーマーは、クラス埋め込みをオブジェクト埋め込みに置き換えることで、パノプティックセグメンテーションを直接実行できます。

仕組み

あまり話しても意味がないので、実際の結果を見てみましょう。

まず、ADE20K データセットでさまざまな Transformer バリアントを比較し、さまざまなパラメーター (正規化、モデル サイズ、画像ブロック サイズ、トレーニング データセットのサイズ、モデルのパフォーマンス、さまざまなデコーダーなど) を研究し、Segmenter と畳み込みベースのセマンティック セグメンテーション メソッドを包括的に比較しました。

その中でも、難しい細粒度のラベルシーンを含むADE20Kデータセットは、最も難しいセマンティックセグメンテーションデータセットの1つです。

次の表は、さまざまな正規化スキームの結果を比較したものです。

彼らは、確率的深度スキームは単独でパフォーマンスを向上できるのに対し、ドロップアウトは、単独であっても確率的深度と組み合わせても、パフォーマンスが低下することを発見しました。

最先端の畳み込み法">

異なる画像ブロック サイズと異なるトランスフォーマーのパフォーマンスを比較した結果、次のことがわかりました。

パッチ サイズを大きくすると、画像の表現は粗くなりますが、生成されるシーケンスは小さくなり、処理が速くなります

パッチ サイズを縮小すると、パラメーターを導入しなくても強力な改善が実現します。ただし、より長いシーケンスに対して Attention を計算する必要があり、計算時間とメモリ使用量が増加します。

最先端の畳み込み法">

セグメンターは、大きなトランスフォーマー モデル小さな画像パッチを使用する場合に適しています。

最先端の畳み込み法">

(表の中央にはリニア デコーダを使用したさまざまなエンコーダが示され、表の下部にはマスク トランスフォーマーをデコーダとして使用したさまざまなエンコーダが示されています)

下の図は、Segmenter の明らかな利点も示しており、Seg/16 モデル (画像ブロック サイズは 16x16) がパフォーマンスと精度の点で最高のパフォーマンスを発揮します。

最先端の畳み込み法">

最後に、Segmenter と SOTA の比較を見てみましょう。

最も困難な ADE20K データセットでは、Segmenter の 2 つの指標がすべての SOTA モデルよりも高くなっています。

最先端の畳み込み法">

(途中部分は長すぎるため省略)

最先端の畳み込み法">

Cityscapes データセットでは、ほとんどの SOTA に匹敵し、最高のパフォーマンスを誇る Panoptic-Deeplab よりもわずか 0.8 低いだけです。

最先端の畳み込み法">

Pascal Context データセットでのパフォーマンスについても同様です。

最先端の畳み込み法">

残りのパラメータの比較については、興味のある方はオンデマンドで論文の詳細を確認してください。

論文の宛先:
出典:http://www.arxiv-vanity.com/papers/2105.05633/

<<:  橋梁点検におけるUAV技術の応用

>>:  Transformer はコンピューター ビジョンの分野でどこまで進歩したのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

AIはソフトウェアテスターの仕事を「奪う」のでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

クラウド セキュリティにおける生成 AI: アクションよりもノイズが多い? !

翻訳者 | ジン・ヤンレビュー | Chonglou人工知能はクラウド セキュリティの次の大きなトレ...

スマートコミュニティにおける人工知能応用の5つのシナリオ

モノのインターネット、クラウド コンピューティング、ビッグ データ、人工知能は、概念からアプリケーシ...

工業情報化部:我が国のAIコア産業規模は5000億元に達し、2,500以上のデジタルワークショップとスマートファクトリーが建設されました

2023年中国(太原)人工知能会議が本日、山西省太原で開幕しました。中国工業情報化部科学技術部の任愛...

人工知能を活用してビジネスを拡大するための 5 つの戦略

現時点では、インテリジェント技術の期待とリターンはまだ不明確であり、製品の創造性と投資を強化するため...

...

医療用人工知能の分野は新たな状況を迎え、テクノロジー大手は積極的に導入を進めている。

報告書によると、医療における人工知能の主な応用分野の一つである医療ロボットの市場規模は2019年に4...

...

人工知能は人々の日常の職業生活をどのように変えているのでしょうか?

[[280560]]世界が急速に発展する中、専門家は生産性と仕事の効率性の向上に努めなければなりま...

人工知能が自立して考えることができるようになると、機械生命体になるのでしょうか?必ずしも

人類が人工知能の時代に突入したことは否定できません。人工知能技術が急速に発展するにつれ、私たちの周り...

SaaSベースのAIトレーニングがゲームチェンジャーとなる理由

機械学習アプリケーションが増加するにつれて、多くの人が機械学習トレーニング データを使用する利点を理...

ヘルスケアにおける人工知能:現在と未来

IDCが発表した最新データによると、ソフトウェア、ハードウェア、サービスを含む世界の人工知能の収益は...

顔認識アクセス制御システムの登場により、私たちのプライバシーを誰が守るのでしょうか?

最近は「顔カード」、つまり「顔を売る」という言葉をよく耳にしますが、あなたの「顔」が身分証明書や電話...