すべてのピクセルに教師なしラベル付け！ 1時間のビデオに800時間を費やす必要はもうありません

ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSOTAを「披露」しました——

人間の介入なしに、世界中のすべてのピクセルにラベルを付けます。

論文アドレス: https://arxiv.org/abs/2203.08414

比較写真の結果から判断すると、この方法は手作業よりもさらに細かく、影までもがマークされている場合があります。

しかし残念なことに、見た目はとてもかっこいいのに、賞の候補（ノミネートも含む）には選ばれませんでした。

1ピクセルも見逃さないでください!

履歴書の分野に戻ると、実はデータのラベル付けの問題は学術界を長い間悩ませてきました。

人間にとっては、それがアボカドであろうと、マッシュポテトであろうと、あるいは「エイリアンの母船」であろうと、一目で認識できる。

しかし、機械にとっては、それはそれほど単純ではありません。

トレーニング用のデータセットを作成するには、画像内の特定のコンテンツをフレームに収める必要がありますが、これは現時点では手動でのみ実行できます。

たとえば、芝生の上に犬が座っている場合、まず犬を丸で囲んで「犬」としてマークし、次にその後ろの地面を「芝生」としてマークする必要があります。

これに基づいて、トレーニングされたモデルは「犬」と「草」を区別できます。

さらに、この問題は非常に厄介です。

これを行わないと、モデルがオブジェクト、人物、その他の重要な画像の特徴を認識することが難しくなります。

やるけど、とても面倒です。

人間の注釈者にとって、画像のセグメント化には、分類やオブジェクト検出よりも約 100 倍の労力がかかります。

1 時間分のデータにラベルを付けるだけでも 800 時間かかります。

データラベリング作業者：私も卒業するんですか？

人間を「ラベル付け」の苦痛から救うために（もちろん、主に技術の進歩を促進するために）、上記の科学者グループは、画像セマンティックセグメンテーションタスクを教師なし方式で完了する、Transformer ベースの新しい方法「STEGO」を提案しました。

教師なしセマンティックセグメンテーションの目的は、いかなる形式の注釈も付けずに、画像コーパス内の意味的に意味のあるカテゴリを検出し、特定することです。

この問題に対処するには、STEGO アルゴリズムは、明確なクラスターを形成するのに十分なほど重要かつコンパクトな特徴を各ピクセルに対して生成する必要があります。

これまでのエンドツーエンドのモデルとは異なり、STEGO は特徴学習とクラスタリングを分離する方法を提案しています。データセット全体に現れる類似画像を探し、これらの類似オブジェクトを関連付けてピクセルレベルのラベル予測を実現します。

CocoStuff データセットには、教師なしセマンティックセグメンテーションタスクの 27 のカテゴリ (地面、空、建物、芝生、自動車、人、動物など) があります。

ベースライン手法は、2021 年に Cho らが提案した PiCIE 手法と比較されます。画像の結果は、STEGO のセマンティックセグメンテーション予測結果が主要なオブジェクトを無視することなく、ローカルの詳細特徴を保持していることを示しています。

STEGO はラベル付けなしで各ピクセルにラベルをどのように割り当てるのでしょうか?

STEGOの原理と構造

STEGOは、2021年にCaronらが提案したDINOモデルを特徴抽出器として使用しています。図は、元の画像（左）でマークされた青、赤、緑の点に対してピクセル特徴の関連付け学習が行われる様子を示しています。

青は空、緑は草、赤はバイクに乗っている人を表します。

STEGO の中核となるのは、画像コーパス全体にわたって特徴の関係性を維持しながら、特徴がコンパクトなクラスターを形成するように促す新しい損失関数です。

次の式の損失関数は、画像とそれ自身、その K 近傍 (KNN) ピクセル、および他のランダム画像との間の特徴関係を抽出するためのトレーニングに使用され、下の図の 3 つの灰色の部分に対応します。

下の図はSTEGO構造を示しています。 STEGO のトレーニングネットワークは、微調整や事前トレーニングを必要としないネットワークで構成されています。この構造は、グローバル平均プーリング (GAP) を通じてグローバルな画像特徴を抽出するために使用されます。次に、各画像の K 最近傍ルックアップテーブルが特徴空間に構築されます。

他の方法と比較すると、この Frozen Visual Backbone 構造のトレーニングにかかる時間は非常に短く、NVIDIA V100 GPU カードでは 2 時間未満で済みます。

予測構造の最後のコンポーネントは、クラスタリングと CRF の改良ステップです。STEGO のセグメンテーション機能は、明確なクラスターを形成する傾向があります。1967 年に MacQueen らが提案したアコサイン距離に基づくミニバッチ K 平均法アルゴリズムを使用してこれらのクラスターを抽出し、形成されたクラスターに割り当てられるカテゴリは、STEGO の連続的な機能に基づいて計算されます。クラスタリング後、これらのラベルは CRF を使用して調整され、空間解像度がさらに向上します。

STEGO の全体的な損失関数は次のとおりです。

実験結果

各検証画像のサイズは 320×320 ピクセルであり、評価指標として平均交差和集合 (mIoU) が使用されます。

左の図は、Cityscapes データセットのラベル付き画像と STEGO セマンティックセグメンテーションの結果の比較を示しており、右の図は、CocoStuff データセットの予測ラベルと実際のラベルの混同行列を示しています。

CocoStuff データセットでは、教師なしセマンティックセグメンテーションタスクの比較結果から、STEGO が従来の方法よりも大幅に優れていることが示されています。

都市景観（27カテゴリー）の予測結果が表示されます。 STEGO は、精度と mIoU の点ですべてのベースラインを大幅に改善します。

実験結果によると、STEGO は CocoStuff (+14mIoU) と Cityscapes (+9mIoU) の両方のデータセットで、細かいセマンティックセグメンテーションタスクで優れたパフォーマンスを達成しています。

改善にもかかわらず、STEGO は依然としていくつかの課題に直面しています。

たとえば、CocoStuff データセットでは、バナナとチキンウィングは「食品」であり、コーングリッツとパスタは「材料」です。しかし、STEGO の目には、これら 2 つの間に違いはありません。

電話の受話器にバナナを置いたとしても、その受話器には「食べ物」というラベルが貼られているかもしれません。

著者について

論文の2番目の著者であるZhoutong Zhang氏は現在MITの博士課程の学生です。彼は清華大学でLiu Yebin教授の指導の下、電子工学を学びました。

これまで、2021年にSIGGRAPHで第一著者として論文「Consistent Depth of Moving Objects in Video」を発表している。

<<: AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。

>>: AI がグラフィックカードを作成し、グラフィックカードが AI を実行します。 Nvidia はチップ設計において自己循環を実現したか?

すべてのピクセルに教師なしラベル付け！ 1時間のビデオに800時間を費やす必要はもうありません

1ピクセルも見逃さないでください!

データラベリング作業者：私も卒業するんですか？

STEGOの原理と構造

実験結果

著者について

ジェネレーティブ AI がデジタル変革の優先事項に与える影響

ICLR 2022: AI が「目に見えないもの」を認識する方法

ドローンと農業は互いに補完し合い、数千億ドルの価値がある広大なブルーオーシャンを共同で生み出す

MITとIBMが共同で「コンピュータービジョンの黄金時代に備える」ための新しいデータセットを発表

2021 年に備えるべきビジネスインテリジェンスのトレンドトップ 10

トラック輸送業界がIoTとAIを活用する方法

年末ですね！ファーウェイクラウド開発者デーと2023イノベーションサミットが成功裏に開催されました

なぜ人間は自分たちよりも賢い人工知能を作り出すのでしょうか?舞台裏では複雑なネットワークサポートが行われている

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか？

推薦する

大規模モデル推論の効率が損失なく3倍に向上。ウォータールー大学、北京大学などがEAGLEをリリース

Google は最新の NLP モデルをオープンソース化しました。このモデルは「罪と罰」の全巻を処理できます。

Python は 2023 年のプログラミング言語リストで引き続きトップを占めています。 SQLが求人需要リストのトップに

AIが予測分析アプリケーションに与える影響

Keras の重み制約を使用してディープニューラルネットワークの過剰適合を減らす

プログラマーの 95% が決して使用しない「アルゴリズム」を勉強する必要はないのでしょうか?

ムスク・ニューラリンクに挑戦！スタンフォード大学の新しい脳コンピューターインターフェースは脳とシリコンベースのチップを直接接続する

11月に最も人気のあるオープンソース機械学習プロジェクトとRedditの議論トップ5

優れたオープンソース音声認識エンジン13選

自動運転の体験はクールで、将来的には多くの交通アルゴリズムが登場するだろう

このBステーションアップマスターはハードコアすぎる！手作りAIテレビ：ハードウェアを自分ではんだ付けし、自分でコードを書く