マイクロソフトコンピュータビジョンイノベーション & リサーチフォーラム 1 日目: 3 つの最先端検出テクノロジの解説

昨日5月15日午前9時、Microsoft Research Asia Innovation ForumのCVPR 2020論文共有セッションがオンラインで開始されました。会議では、コンピュータービジョン (CV) 分野の 19 人の学者が、検出、マルチモダリティ、基礎となるビジョン、画像生成、機械学習という 5 つの主要方向にわたる最新の研究成果を共有しました。

14日午前には、コンピュータービジョン検出分野の研究者3名が講演し、それぞれ先進的な顔認識技術、動き検出技術、ターゲット検出技術を紹介しました。 Zhidongxi はこれら 3 つの高度なテクノロジーを解釈します。

Microsoft Research Asia Innovation Forum の CVPR 2020 論文共有セッションは、コンピュータービジョン (CV) 分野で最も重要なカンファレンスの 1 つです。このセッションでは、CV 分野の最先端技術約 20 件が共有されました。

1. X線検出アルゴリズムは95.4%の精度で偽造画像を識別します

ディープフェイク技術の悪用は、少なくとも虚偽情報の問題を引き起こす可能性があり、さらには金融セキュリティリスクや侵害問題などを引き起こす可能性もあります。ディープフェイク画像の中には、非常にリアルなものもあり、人間の目には違いを見分けるのが難しいものもあります。この場合、顔認識技術が識別に役立ちます。

既存の顔認識ツールのほとんどは、特定のディープフェイク技術向けにトレーニングされており、偽の顔画像を入力として使用します。つまり、顔認識技術は、特定の方法で合成された偽の画像しか認識できないのです。ディープフェイク技術が進化したり、他のディープフェイク技術に置き換えられたりすると、顔認識モデルが無効になる可能性があります。

マイクロソフトリサーチアジアの研究員、バオ・ジェンミン氏は、実際の顔画像を使って訓練された顔X線認識技術について説明した。ディープフェイク技術が進化しても、X線顔検出アルゴリズムは高いレベルの精度を維持できます。

偽造画像の作り方は、2つの画像を重ね合わせる、つまり背景画像（背景）に加工した顔画像（前景）を合成するというものです。研究者らは、各画像の撮影や制作過程では異なるハードウェア（センサー、レンズなど）やソフトウェア（圧縮、合成アルゴリズムなど）が使用されるため、前景画像と背景画像の特徴がまったく同じになることはできず、顔画像と背景画像の間に「境界」が存在すると指摘した。

顔X線技術は上記の機能を活用し、顔のグレースケール画像を入力として使用します。顔 X 線モデルは、さまざまなグレースケール画像間の違いを識別できるため、顔画像が本物か偽物かを示すだけでなく、偽画像のブレンド境界の位置を特定することもできます。

▲左から1枚目が本物、他は偽物です。顔X線モデルは偽物の混在境界位置を検出します。

研究者らは、顔X線モデルのパフォーマンスを従来の顔認識ツールと比較した。結果は、モデルが以前のバイナリ分類方法よりも多くの偽の顔フレームを検出でき、認識精度が最大 95.4% に達することを示しています。

鮑建民氏は、このアルゴリズムにはまだ一定の限界があると指摘した。たとえば、Face X-ray は主に顔画像データベース FF++ を使用してトレーニングされます。 FF++ の画像のほとんどは正面画像であるため、横顔を認識するモデルの精度は低くなります。

DAGMモデル: アクションとコンテキストを区別し、アクションを正確に識別する

マイクロソフトリサーチアジアの研究員Qi Dai氏は、動画から動作を識別できるモーション検出技術について説明した。現在のモーション検出技術は、完全教師あり方式と弱教師あり方式に分けられることが分かっています。

完全教師あり方式のアクション検出モデルでは、トレーニング中にアクション間隔の時間的な注釈が必要であり、これは非常にコストがかかり、時間がかかります。そのため、既存のアクション検出ツールでは、主に弱教師付きアクションローカリゼーション (WSAL) テクノロジが使用されています。

WSAL 技術には 2 つのタイプがあります。最初のタイプは、ビデオレベルの分類子を学習し、生成された時間クラスアクティベーションマップ (TACM) をチェックしてフレームアテンションを取得するトップダウンパイプラインを構築します。 2 番目のカテゴリはボトムアップであり、生データから直接時間的注意を予測し、ビデオレベルの監督からビデオ分類のタスクを最適化します。

どちらのアプローチもビデオレベルの分類モデルに依存しており、アクションとコンテキストの混乱という問題が発生します。例えば、走り幅跳びの動画では、走り幅跳びの動作（アクション）には助走、ジャンプ、着地の 3 つの段階しかありませんが、動作検出モデルでは準備段階や終了段階（コンテキスト）も選択されることが多いです。

研究者たちは、この問題を解決する鍵は、行動と文脈の違いを見つけることにあると考えている。彼らは、識別的注意モデル (DAM) と生成的注意モデル (GAM) を使用して検出ツールを最適化し、識別的および生成的注意モデル (DAGM) を提案しました。

研究者らは、DAGM モデルのパフォーマンスを他の弱く監視されたアクションツールと比較しました。結果は、DAGM モデルのパフォーマンスが良好で、最高の平均精度が 41 に達したことを示しています。

3. TSDアルゴリズム：検出ツールの精度を3～5％向上

ターゲット認識アルゴリズムは、通常、分類と位置特定という 2 つの次元からオブジェクトを検出します。前者はオブジェクトのプロパティを識別することを指し、後者はオブジェクトの場所を特定することを指します。

従来の検出方法では、通常、分類と回帰を一緒に学習し、オブジェクトが存在する可能性のある領域ボックス (提案) と特徴抽出器 (兄弟ヘッド) を共有します。

この検出方法の制限は、最終出力画像フレームの分類信頼性が検出フレームの精度と一致しず、認識精度が低いことです。

研究者らは、これは分類タスクと回帰タスクの間に違いがあるためだと結論付けました。分類タスクは意味情報が豊富な領域に重点を置いているのに対し、回帰タスクはオブジェクトの境界に重点を置いています。したがって、共有オブジェクトの潜在的な領域ボックス (提案) と特徴抽出器 (兄弟ヘッド) が検出結果に影響します。

SenseTime X-Lab の研究者である Song Guanglu 氏は、タスク認識空間分離 (TSD) に基づく検出アルゴリズムを発表しました。このアルゴリズムは、特別に設計されたオフセット生成戦略を検出ヘッドに適用し、共同で漸進的損失をトレーニングして最適化します。結果は、TSD アルゴリズムと組み合わせた検出ツールの検出精度が 3 ～ 5% 向上することを示しています。

結論: CV研究は意味論と堅牢性において課題に直面している

3人の研究者の発表が終わった後、ロチェスター大学のロジャー・ルオ教授、カリフォルニア大学バークレー校のイー・マー教授、カリフォルニア大学サンディエゴ校のチューウェン・トゥ教授、カリフォルニア大学のミンシュアン・ヤン教授、Wormpex AI Researchのガン・ホア教授が円卓討論会を開催した。これら 5 人の教授はいずれも CVPR 会議の議長を務めています。

トピックの選択と執筆スキルの面では、5人の教授はCV研究者に多くの提案をしました。たとえば、研究者は研究のホットスポットを盲目的に追求する必要はなく、興味のあるトピックを選択すべきであり、駆け出しの研究者は熟練した研究者の論文構成から学ぶことができると彼らは信じていました。彼らは、プレプリントウェブサイトarXivに掲載される論文の質は大きく異なるため、研究者はそれらを参照する際には注意深く見極める必要があると強調した。

さらに、5 人の教授は、現在 CV 研究が直面している 2 つの主な課題はセマンティクスと堅牢性であると指摘しました。セマンティクスの理解は、モデルがより高いレベルのタスクを完了できるかどうかに関係します。医療、ドローン、航空宇宙などの分野では、CV モデルの堅牢性が安全性に直接影響します。

したがって、その後の CV 研究では、CV モデルの意味理解と堅牢性の向上に重点が置かれています。

<<: AIチャットボットがコロナウイルスによる人員不足の問題を緩和する方法

>>: モノのインターネット – インド国防軍にとっての可能性