言語モデルは本来の役割を果たしていないため、DETRよりも優れたパフォーマンスでオブジェクト検出に使用されています。

言語モデルは本来の役割を果たしていないため、DETRよりも優れたパフォーマンスでオブジェクト検出に使用されています。

[[426823]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

長い間、CNN はターゲット検出タスクを解決するための古典的な方法でした。

Transformer を使用した DETR が導入された場合でも、最終的な検出結果を予測するために CNN が使用されます。

しかし現在、ジェフリー・ヒントン氏と Google Brain チームは、言語モデリング手法を使用してターゲット検出を完全に完了できる新しいフレームワークPix2Seq を提案しています。

チームは、画像ピクセルから対象オブジェクトの「説明」を取得し、それを言語モデリングタスクの入力として使用しました。次に、モデルにこの「言語」を学習させて習得させ、有用なターゲット表現を取得します。

最終結果は基本的にFaster R-CNNおよびDETRと同等です。小さなオブジェクトの検出では DETR よりも優れており、大きなオブジェクトの検出では Faster R-CNN よりも優れたパフォーマンスを発揮します。

次に、このモデルのアーキテクチャを詳しく見てみましょう。

オブジェクトの説明からシーケンスを構築する

Pix2Seq の処理フローは主に 4 つの部分に分かれています。

  • 画像強調
  • シーケンスの構築と強化
  • エンコーダ/デコーダアーキテクチャ
  • 目的/損失関数

まず、Pix2Seq は画像拡張を使用して、固定されたトレーニング例のセットを充実させます。

次のステップは、オブジェクトの説明からシーケンスを構築することです。

画像には複数のオブジェクト ターゲットが含まれることが多く、各オブジェクト ターゲットは境界ボックスとカテゴリ ラベルのセットとして考えることができます。

これらのオブジェクト ターゲットの境界ボックスとカテゴリ ラベルは個別のシーケンスとして表現され、複数のオブジェクトはランダム ソート戦略を使用してソートされ、最終的に特定の画像の単一のシーケンスが形成されます。

それは、冒頭で述べた、対象物を「記述」するための特別な言語です。

その中で、クラスラベルは離散トークンとして自然に表現できます。

境界ボックスは、左上隅と右下隅の 2 つのコーナー ポイントの X、Y 座標とカテゴリ インデックス c を離散化し、最終的に 5 つの離散トークン シーケンスを取得します。

研究チームは、すべてのターゲットに対して共通の語彙を使用します。テーブル サイズ = ビンの数 + カテゴリの数です。

この量子化メカニズムにより、600×600 の画像では 600 ビンのみで量子化誤差ゼロを達成できます。これは、32K 語彙の言語モデルよりもはるかに小さいものです。

次に、生成されたシーケンスを言語と見なし、言語モデルにおける一般的なフレームワークと目的関数を紹介します。

ここではエンコーダー/デコーダー アーキテクチャが使用され、エンコーダーはピクセルを感知してそれらを隠された表現の一般的な画像にエンコードするために使用され、Transformer デコーダーは生成に使用されます。

言語モデルと同様に、Pix2Seq は画像と以前のトークンを予測し、尤度損失を最大化するために使用されます。

推論フェーズでは、モデルからトークンのサンプリングが実行されます。

すべてのオブジェクトを予測する前にモデルが終了するのを防ぎ、精度 (AP) と再現率 (AR) のバランスをとるために、チームはシーケンス強化技術を導入しました。

この方法では、入力シーケンスを拡張し、ターゲット シーケンスを変更してノイズ トークンを識別できるようにすることで、モデルの堅牢性を効果的に向上させることができます。

小型ターゲット検出においてDETRを上回る

チームは評価のために、118,000 枚のトレーニング画像と 5,000 枚の検証画像を含む MS-COCO 2017 検出データセットを選択しました。

DETR や Faster R-CNN などのよく知られているターゲット検出フレームワークと比較すると、次のことがわかります。

Pix2Seq は、小型/中型オブジェクトの検出では Faster R-CNN と同等のパフォーマンスを発揮しますが、大型オブジェクトの検出では Faster R-CNN よりも優れています。

DETR と比較すると、Pix2Seq は大規模/中規模ターゲットの検出では同等かわずかに劣りますが、小規模ターゲットの検出では優れています。

中国人

この論文は、チューリング賞受賞者のジェフリー・ヒントン氏が率いる Google Brain チームによるものです。

第一著者のティン・チェンは中国人です。北京郵電大学を卒業し、2019年にカリフォルニア大学ロサンゼルス校(UCLA)でコンピューターサイエンスの博士号を取得しました。

彼は Google Brain チームで 2 年間働いており、現在の主な研究分野は自己教師あり表現学習、効果的な離散構造ディープ ニューラル ネットワーク、生成モデリングです。

[[426825]]

紙:
https://arxiv.org/abs/2109.10852

<<:  国立国防技術大学は、モバイル環境下で高精度のオンラインRGB-D再構成を実現するROSEFusionを提案

>>:  AIと人間のバンドが初めてコラボしてアルバムをリリース

ブログ    
ブログ    

推薦する

機械学習: IoT 成功の秘訣?

モノのインターネット (IoT) に匹敵する潜在力を持つテクノロジーはほとんどなく、IoT はほぼす...

...

18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなけ...

新居ネットワークの程永馨氏:AIの助けを借りて、運用保守プラットフォームは新たな活力を得ました

[51CTO.com からのオリジナル記事] 運用と保守の発展を振り返ると、スクリプト、ツール、プラ...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

AI技術は製薬業界の発展をどのように促進するのでしょうか?

[[315538]]米国では無人タクシーの試験と導入が進み、SFで描かれた無人運転のシナリオが徐々...

人工知能変革の転換点をどう乗り越えるか

Milvus は、オープンソースの人工知能エコシステムにデータ サービス機能を提供するオープンソース...

AI導入から最大限の価値を引き出す方法

[[344258]]業界をリードする組織を対象とした調査では、世界中の組織の大多数 (91.6%) ...

大規模言語モデルとベクトルデータベースに基づくニュース推奨システムの開発

翻訳者|朱 仙中レビュー | Chonglou近年、 ChatGPTやBardなどの生成AIツールの...

2023年までに、プライバシーコンプライアンス技術の40%以上がAIに依存するようになる

ガートナーによれば、2023年までにプライバシーコンプライアンス技術の40%以上が人工知能(AI)に...

人工知能の主な研究段階と将来の発展方向は何ですか?

人工知能は常にコンピュータ技術の最前線にあり、人工知能研究の理論と発見はコンピュータ技術の発展の方向...

...

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員:給料をもう少し下げてもいい

テクノロジー業界は歴史的に平均給与が最も高い業界の一つであり、リストのトップにランクされることも少な...

AIと機械学習がIoTデータから重要な洞察を引き出す方法

過去数年間、モノのインターネットに関する議論の多くは、接続されたデバイス自体、つまりそれが何であるか...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

[[375039]]人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950...