Hinton チームの新しい CV 研究: ターゲット検出に言語モデルを使用、DETR に匹敵するパフォーマンス

[[426028]]

視覚オブジェクト検出システムは、画像内のすべての定義済みカテゴリのオブジェクトを識別して位置を特定することを目的としています。検出されたオブジェクトは通常、境界ボックスと関連するクラスラベルのセットによって記述されます。タスクの難しさを考えると、既存の方法のほとんどは、アーキテクチャと損失関数の選択に関する広範な事前知識を使用して、慎重に設計され、高度にカスタマイズされています。

チューリング賞受賞者のジェフリー・ヒントン氏と Google Research の研究者数名が最近、物体検出のためのシンプルで汎用的なフレームワーク Pix2Seq を提案しました。関連するタスクの事前知識を明示的に統合する既存の方法とは異なり、私たちのフレームワークは、オブジェクト検出を、観測されたピクセル入力を条件とする言語モデリングタスクに変換するだけです。ここでは、ターゲットの説明 (境界ボックスやクラスラベルなど) は個別のトークンのシーケンスとして表現され、この研究ではニューラルネットワークをトレーニングして画像を認識させ、必要なシーケンスを生成します。

論文アドレス: https://arxiv.org/abs/2109.10852

このアプローチは、ニューラルネットワークがオブジェクトがどこにあり、何であるかを知っていれば、それを読み取る方法を教えればよいという直感に基づいています。タスク固有のデータ拡張を使用することとは別に、この方法ではタスクに関する仮定は最小限に抑えられます。しかし、COCO データセットのテスト結果は、新しい方法が高度に専門化され最適化された検出アルゴリズムと完全に匹敵することを示しています。

Pix2Seq フレームワーク

この研究で提案された Pix2Seq フレームワークは、オブジェクト検出をピクセル入力を条件とする言語モデリングタスクとして扱います。上で説明した Pix2Seq のアーキテクチャと学習プロセスには、下の図 2 に示すように、次の 4 つの主要コンポーネントがあります。

画像拡張: コンピュータービジョンモデルのトレーニングでは一般的に行われる画像拡張を使用して、固定されたトレーニング例のセットを充実させます (ランダムなスケーリングや切り取りなど)。
シーケンスの構築と拡張: 画像のオブジェクト注釈は通常、境界ボックスとクラスラベルのセットとして表されるため、この研究ではそれらを個別のトークンのシーケンスに変換します。
アーキテクチャ: この研究では、エンコーダーがピクセル入力を感知し、デコーダーがターゲットシーケンス (一度に 1 つのトークン) を生成するエンコーダーデコーダーモデルアーキテクチャを使用します。
目的/損失関数: モデルはトークンの対数尤度を最大化するようにトレーニングされます。

ターゲット記述に基づくシーケンス構築

Pascal VOC や COCO などの一般的なターゲット検出データセットでは、画像にさまざまな数のターゲットが含まれることが多く、これらは境界ボックスとクラスラベルのセットで表されます。Pix2Seq は、それらを個別のトークンのシーケンスとして表します。

クラスラベルは当然個別のトークンとして表現されますが、境界ボックスはそうではありません。境界ボックスは、2 つの角 (つまり、左上隅と右下隅)、または中心点と高さおよび幅によって決定されます。この研究では、コーナーポイントの x、y 座標を指定するために使用される連続数を離散化することを提案します。具体的には、ターゲットは 5 つの離散トークンのシーケンス、つまり [y_min、x_min、y_max、x_max、c] として表されます。ここで、連続する各角度座標は [1、n_bins] の間の整数に均一に離散化され、c はクラスインデックスです。この研究ではすべてのトークンに共通の語彙を使用しているため、語彙のサイズはビンの数 + クラスの数に等しくなります。この境界ボックスの量子化方式により、小さな語彙のみを使用しても高い精度を実現できます。たとえば、600×600 の画像では、量子化誤差をゼロにするために必要なビンは 600 個だけです。これは、32K 以上の語彙を持つ現代の言語モデルよりもはるかに小さいです。異なるレベルの量子化が境界ボックスに与える影響は、以下の図 3 に示されています。

各オブジェクトの説明が短い離散シーケンスとして表現されている場合、次に、複数のオブジェクトの説明をシリアル化して、特定のイメージに対して単一のシーケンスを構築する必要があります。オブジェクトの順序は検出タスク自体には重要ではないため、研究者はランダム順序付け戦略（画像が表示されるたびにオブジェクトの順序がランダム化される）を使用しました。さらに、研究者らは他の決定論的ソート戦略も検討しましたが、利用可能なニューラルネットワークと自己回帰モデル (ここでは、ネットワークは観測されたターゲットに基づいて残りのターゲットの分布をモデル化することを学習します) があれば、ランダムソート戦略はどの決定論的ソート戦略と同じくらい効果的であると想定しました。

最後に、異なる画像には通常異なる数のオブジェクトが含まれるため、生成されるシーケンスの長さは異なります。シーケンスの終了を知らせるために、研究者らは EOS トークンを組み込みました。

下の図 4 は、さまざまなソート戦略を使用したシーケンス構築プロセスを示しています。

アーキテクチャ、目標、および推論

ここでは、ターゲット記述から構築されたシーケンスを一種の「方言」として扱い、言語モデリングで適切に機能する一般的なアーキテクチャと目的関数に目を向けます。

ここではコーデックアーキテクチャが使用されます。エンコーダーは、汎用の知覚ピクセル画像エンコーダーであり、それらを ConvNet (LeCun et al., 1989; Krizhevsky et al., 2012; He et al., 2016)、Transformer (Vaswani et al., 2017; Dosovitskiy et al., 2020)、またはそれらの組み合わせ (Carion et al., 2020) などの隠し表現にエンコードできます。

生成には、研究者らは現代の言語モデリングで広く使用されているTransformerデコーダーを使用しました（Radford et al.、2018; Raffel et al.、2019）。前のトークンとエンコードされた画像表現に応じて、一度に 1 つのトークンを生成します。これにより、トークンがソフトマックスを含む語彙から生成されるため、境界ボックスの提案や境界ボックスの回帰などのオブジェクト検出器アーキテクチャの複雑さとカスタマイズが排除されます。

言語モデルと同様に、画像と前のトークンが与えられると、Pix2Seq は最大尤度損失でトークンを予測するようにトレーニングされます。

ここで、x は指定された画像、y と y^~ はそれぞれ関連付けられた入力シーケンスとターゲットシーケンス、l はターゲットシーケンスの長さです。標準言語モデリングでは、y と y^~ は同じです。さらに、wj はシーケンス内の j 番目のトークンに事前に割り当てられた重みです。 wj = 1、何か j を設定しますが、トークンはタイプ (座標とクラストークンなど) または対応するオブジェクトのサイズに基づいて重み付けできます。

推論プロセス中に、研究者はモデル尤度からトークンをサンプリングしました。

。これは、最大尤度 (arg max サンプリング) トークンを使用するか、その他のランダムサンプリング手法を使用することによっても実現できます。研究者らは、カーネルサンプリング (Holtzman et al.、2019) を使用すると、arg max サンプリングよりもリコールが向上する可能性があることを発見しました (付録 b)。 EOS トークンが生成されるとシーケンスは終了します。シーケンスが生成されると、オブジェクトの説明が直接抽出され、逆量子化されます (つまり、予測された境界ボックスとクラスラベルが取得されます)。

シーケンスの強化

EOS トークンを使用すると、モデルはいつ終了するかを決定できますが、実際には、モデルはすべてのターゲットを予測せずに終了することがよくあります。これには次の原因が考えられます:

注釈ノイズ（例：注釈者がすべてのオブジェクトを識別しなかった）
特定のターゲットを識別または特定する際の不確実性。オブジェクト検出では再現率と精度の両方が重要であるため、モデルは再現率が良好でなければ全体的なパフォーマンス (平均精度など) を良好にすることはできません。

より高い再現率を得るための 1 つの方法は、EOS トークンの確率を人為的に下げて、そのサンプリングを遅らせることです。ただし、これにより、ノイズの多い重複した予測が生成されることがよくあります。

シーケンス強化によって導入された変更は、以下の図 5 に示されており、詳細は次のとおりです。

研究者らはまず、入力シーケンスを次の 2 つの方法で増強するための合成ノイズターゲットを作成しました。

既存のグラウンドトゥルースオブジェクトにノイズを追加する（例：境界ボックスをランダムにスケーリングまたは移動する）。
完全にランダムな境界ボックス（ランダムに関連付けられたクラスラベル付き）を生成します。注目すべきは、これらのノイズオブジェクトの一部は、図 6 に示すように、ノイズと繰り返し予測をシミュレートして、一部のグラウンドトゥルースオブジェクトと同一であったり、重複したりする場合があることです。

推論を変更します。研究者たちは、シーケンス拡張を使用して、ノイズや繰り返し予測の頻度を増やすことなく、EOS トークンを大幅に遅延させ、リコールを向上させることができました。そのため、モデルが最大長まで予測できるようにし、固定サイズのターゲットリストを生成しました。生成されたシーケンスから境界ボックスとクラスラベルを抽出するときに、ノイズの多いクラスラベルを、すべての真のクラスラベルの中で最も尤度の高い真のクラスラベルに置き換えます。また、選択したクラスラベルの尤度をターゲットのランキングスコアとして使用します。

実験結果

研究者らは主に、広く認知されている2つのベースライン手法、すなわち2020年にFacebook AIが提案したDETRと、それ以前のFaster R-CNNを比較した。

結果を下の表 1 に示します。Pix2Seq は 2 つのベースラインメソッドと同等のパフォーマンスを実現し、小型および中型のオブジェクトでは R-CNN と同等のパフォーマンスを実現し、大型のオブジェクトではより優れています。 DETR と比較すると、Pix2Seq は中型および大型のオブジェクトでは同等かわずかに劣るパフォーマンスを発揮しますが、小型のオブジェクトでは大幅に優れたパフォーマンスを発揮します (4-5 AP)。

シーケンス構成のアブレーション実験

下の図 7a は、座標量子化がパフォーマンスに与える影響を示しています。このアブレーション実験では、研究者らは 640 ピクセルの画像を検討しました。グラフは、500 ビン以上に量子化すれば十分であり、500 ビン (ビンあたり約 1.3 ピクセル) では大きな近似誤差は発生しないことを示しています。実際、ビンの数がピクセル数（画像の最も長い辺に沿って）と同じであれば、境界ボックス座標の量子化によって大きな誤差は発生しません。

訓練中、研究者らは配列構築におけるさまざまなターゲット順序付け戦略も考慮しました。これらには、1) ランダム、2) リージョン (つまり、サイズが減少するオブジェクト)、3) dist2ori (つまり、境界ボックスの左上隅から原点までの距離)、4) クラス (名前)、5) クラス + リージョン (つまり、オブジェクトは最初にクラスでソートされ、同じクラスのオブジェクトが複数ある場合はリージョンでソートされます)、および 6) クラス + dist2ori が含まれます。

下の図 7b は平均精度 (AP) を示しており、図 7c は上位 100 件の予測の平均再現率 (AR) を示しています。ランダムソートは、精度と再現率の両方の点で最高のパフォーマンスを実現します。研究者らは、決定論的ソートを使用すると、モデルは以前に失われたターゲットのエラーから回復するのが困難になる可能性があるが、ランダムソートを使用すると、後でそれらを取得できると推測しています。

強化アブレーション実験

研究者が使用する主な画像強調方法はスケールジッタリングであるため、さまざまなスケールジッタリングの強度が比較されます (1:1 はスケールジッタリングがないことを意味します)。下の図 8a は、適切なスケールジッターがない場合、モデルがオーバーフィットする (つまり、検証 AP は低いがトレーニング AP は高い) ことを示しています。研究者たちは、Pix2Seq フレームワークがタスクに関する仮定を最小限に抑えているため、強力な画像拡張がこの研究で役立つと期待しています。

研究者らは、シーケンス拡張トレーニングの有無によるモデルパフォーマンスの変化も調査しました。シーケンス拡張を使用してトレーニングされていないモデルの場合、推論中に EOS トークン尤度のオフセットを調整してモデルを実行し、より多くの予測を行った結果、さまざまなリコール率が得られました。下の図 8b に示すように、順次強化が行われない場合、モデルでは AR が増加すると AP が大幅に減少します。シーケンス拡張を使用すると、モデルはノイズや繰り返しの予測を回避し、高い再現率と高い精度を実現できます。

デコーダーの交差注意マップの視覚化

新しいトークンを生成するとき、Transformer ベースのデコーダーは、以前のトークンに対して自己注意を使用し、エンコードされた視覚特徴マップに対して相互注意を使用します。研究者たちは、モデルが新しいトークンを予測する際のクロスアテンション（レイヤーとヘッド全体の平均）を視覚化したいと考えています。

下の図 9 は、最初のいくつかのトークンを生成するときのクロスアテンショングラフを示しています。最初の座標トークン (y_min) を予測するときに、アテンションが非常に強い多様性を示していますが、その後すぐに集中してターゲットに固定されていることがわかります。

研究者らは、座標を介して特定の領域に焦点を合わせるモデルの能力をさらに調査しました。画像を N×N の長方形領域のグリッドに均等に分割し、各領域は境界ボックス座標のシーケンスによって指定されます。次に、各領域の座標シーケンスを読み取った後、デコーダーの注意を視覚特徴マップ上に視覚化しました。最後に、画像のピクセルをシャッフルして、既存のオブジェクトから気を散らすものを取り除き、明瞭さのために上部の注目点の 2% を削除しました。

興味深いことに、下の図 10 に示すように、モデルはさまざまなスケールで特定の領域に焦点を当てることができるようです。

<<: ディープラーニングモデルのサイズとモデル推論速度に関するいくつかの議論

>>: エラー率を半分にするには、500 倍以上の計算能力が必要です。ディープラーニングの未来は、単にお金をかけるだけで実現できるのでしょうか?