ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSOTAを「披露」しました—— 人間の介入なしに、世界中のすべてのピクセルにラベルを付けます。 論文アドレス: https://arxiv.org/abs/2203.08414 比較写真の結果から判断すると、この方法は手作業よりもさらに細かく、影までもがマークされている場合があります。 しかし残念なことに、見た目はとてもかっこいいのに、賞の候補(ノミネートも含む)には選ばれませんでした。 1ピクセルも見逃さないでください!履歴書の分野に戻ると、実はデータのラベル付けの問題は学術界を長い間悩ませてきました。 人間にとっては、それがアボカドであろうと、マッシュポテトであろうと、あるいは「エイリアンの母船」であろうと、一目で認識できる。 しかし、機械にとっては、それはそれほど単純ではありません。 トレーニング用のデータ セットを作成するには、画像内の特定のコンテンツをフレームに収める必要がありますが、これは現時点では手動でのみ実行できます。 たとえば、芝生の上に犬が座っている場合、まず犬を丸で囲んで「犬」としてマークし、次にその後ろの地面を「芝生」としてマークする必要があります。 これに基づいて、トレーニングされたモデルは「犬」と「草」を区別できます。 さらに、この問題は非常に厄介です。 これを行わないと、モデルがオブジェクト、人物、その他の重要な画像の特徴を認識することが難しくなります。 やるけど、とても面倒です。 人間の注釈者にとって、画像のセグメント化には、分類やオブジェクト検出よりも約 100 倍の労力がかかります。 1 時間分のデータにラベルを付けるだけでも 800 時間かかります。 データラベリング作業者:私も卒業するんですか?人間を「ラベル付け」の苦痛から救うために(もちろん、主に技術の進歩を促進するために)、上記の科学者グループは、画像セマンティックセグメンテーションタスクを教師なし方式で完了する、Transformer ベースの新しい方法「STEGO」を提案しました。 教師なしセマンティックセグメンテーションの目的は、いかなる形式の注釈も付けずに、画像コーパス内の意味的に意味のあるカテゴリを検出し、特定することです。 この問題に対処するには、STEGO アルゴリズムは、明確なクラスターを形成するのに十分なほど重要かつコンパクトな特徴を各ピクセルに対して生成する必要があります。 これまでのエンドツーエンドのモデルとは異なり、STEGO は特徴学習とクラスタリングを分離する方法を提案しています。データセット全体に現れる類似画像を探し、これらの類似オブジェクトを関連付けてピクセルレベルのラベル予測を実現します。 CocoStuff データセットには、教師なしセマンティックセグメンテーションタスクの 27 のカテゴリ (地面、空、建物、芝生、自動車、人、動物など) があります。 ベースライン手法は、2021 年に Cho らが提案した PiCIE 手法と比較されます。画像の結果は、STEGO のセマンティック セグメンテーション予測結果が主要なオブジェクトを無視することなく、ローカルの詳細特徴を保持していることを示しています。 STEGO はラベル付けなしで各ピクセルにラベルをどのように割り当てるのでしょうか? STEGOの原理と構造STEGOは、2021年にCaronらが提案したDINOモデルを特徴抽出器として使用しています。図は、元の画像(左)でマークされた青、赤、緑の点に対してピクセル特徴の関連付け学習が行われる様子を示しています。 青は空、緑は草、赤はバイクに乗っている人を表します。 STEGO の中核となるのは、画像コーパス全体にわたって特徴の関係性を維持しながら、特徴がコンパクトなクラスターを形成するように促す新しい損失関数です。 次の式の損失関数は、画像とそれ自身、その K 近傍 (KNN) ピクセル、および他のランダム画像との間の特徴関係を抽出するためのトレーニングに使用され、下の図の 3 つの灰色の部分に対応します。 下の図はSTEGO構造を示しています。 STEGO のトレーニング ネットワークは、微調整や事前トレーニングを必要としないネットワークで構成されています。この構造は、グローバル平均プーリング (GAP) を通じてグローバルな画像特徴を抽出するために使用されます。次に、各画像の K 最近傍ルックアップ テーブルが特徴空間に構築されます。 他の方法と比較すると、この Frozen Visual Backbone 構造のトレーニングにかかる時間は非常に短く、NVIDIA V100 GPU カードでは 2 時間未満で済みます。 予測構造の最後のコンポーネントは、クラスタリングと CRF の改良ステップです。STEGO のセグメンテーション機能は、明確なクラスターを形成する傾向があります。1967 年に MacQueen らが提案したアコサイン距離に基づくミニバッチ K 平均法アルゴリズムを使用してこれらのクラスターを抽出し、形成されたクラスターに割り当てられるカテゴリは、STEGO の連続的な機能に基づいて計算されます。クラスタリング後、これらのラベルは CRF を使用して調整され、空間解像度がさらに向上します。 STEGO の全体的な損失関数は次のとおりです。 実験結果各検証画像のサイズは 320×320 ピクセルであり、評価指標として平均交差和集合 (mIoU) が使用されます。 左の図は、Cityscapes データセットのラベル付き画像と STEGO セマンティック セグメンテーションの結果の比較を示しており、右の図は、CocoStuff データセットの予測ラベルと実際のラベルの混同行列を示しています。 CocoStuff データセットでは、教師なしセマンティックセグメンテーションタスクの比較結果から、STEGO が従来の方法よりも大幅に優れていることが示されています。 都市景観(27カテゴリー)の予測結果が表示されます。 STEGO は、精度と mIoU の点ですべてのベースラインを大幅に改善します。 実験結果によると、STEGO は CocoStuff (+14mIoU) と Cityscapes (+9mIoU) の両方のデータセットで、細かいセマンティックセグメンテーションタスクで優れたパフォーマンスを達成しています。 改善にもかかわらず、STEGO は依然としていくつかの課題に直面しています。 たとえば、CocoStuff データセットでは、バナナとチキンウィングは「食品」であり、コーングリッツとパスタは「材料」です。しかし、STEGO の目には、これら 2 つの間に違いはありません。 電話の受話器にバナナを置いたとしても、その受話器には「食べ物」というラベルが貼られているかもしれません。 著者について論文の2番目の著者であるZhoutong Zhang氏は現在MITの博士課程の学生です。彼は清華大学でLiu Yebin教授の指導の下、電子工学を学びました。 これまで、2021年にSIGGRAPHで第一著者として論文「Consistent Depth of Moving Objects in Video」を発表している。 |
<<: AIとインフラストラクチャのゲームチェンジャーが市場で成熟しつつあります。
>>: AI がグラフィック カードを作成し、グラフィック カードが AI を実行します。 Nvidia はチップ設計において自己循環を実現したか?
大規模言語モデル (LLM) はさまざまな分野でますます使用されるようになっています。ただし、テキス...
Transformer は、近年 NLP 分野で注目されているモデルの 1 つです。 2017年、...
技術の急速な発展により、プログラミング言語は現代社会に欠かせないものになりました。ウェブサイト開発、...
人工知能 (AI) を使用した予測分析により、企業は過去のデータに基づいて将来の結果を予測し、運用効...
[[333587]]重み制約は、ディープラーニング ニューラル ネットワーク モデルのトレーニング ...
私はほぼ 10 年間コードを書いてきましたが、挿入ソートや赤黒木を書いたことはなく、再帰を使用したこ...
[[319624]]最近、スタンフォード大学の研究者らは、脳をシリコンベースの技術に直接接続できる新...
導入データ サイエンティストになる上で最も良いことの 1 つはプログラミングです。多くの場合、私は...
自動音声認識 (ASR) は、人間とコンピュータの相互作用において重要な役割を果たし、転写、翻訳、デ...
[[229949]]若い観客が自動運転車「ファントム」を体験[[229950]] [[229951]...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...