ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。

ICCVはコンピュータビジョン分野における世界最高峰の学術会議として2年ごとに開催されています。

CVPR と同様に、ICCV の人気は新たな高みに達し続けています。

本日の開会式で、ICCVは今年の論文データを正式に発表しました。今年のICCVへの提出論文総数は8,068件に達し、そのうち2,160件が採択され、採択率は26.8％で、前回のICCV 2021の採択率25.9％をわずかに上回りました。

論文トピックに関して、関係者は関連データも発表した。マルチビューとセンサーによる3Dが最も人気がある。

本日の開会式の最も重要な内容は、もちろん表彰式です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を順に発表させていただきます。

最優秀論文賞 - マー賞

今年は合計2本の論文が最優秀論文賞（Mar Prize）を受賞しました。

最初のものはトロント大学の研究者によるものです。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
機関: トロント大学

概要: この論文では、極限の時間スケール (数秒からピコ秒) で動的シーンを同時に、しかも大量の光や光源からのタイミング信号なしで受動的に画像化する問題について検討します。単一光子カメラの既存のフラックス推定技術はこの設定では機能しないため、確率計算からの洞察を引き出し、単調に増加する光子検出タイムスタンプのストリームからピクセルでの時間変動フラックスの再構築を可能にするフラックス検出理論を開発しました。

本論文では、この理論を利用して、(1)パッシブフリーランニングSPADカメラが低フラックス条件下でDCから31GHzの全範囲にわたる達成可能な周波数帯域幅を持つことを示す、(2)新しいフーリエ領域フラックス再構成アルゴリズムを導出する、(3)非常に低い光子数や無視できないデッドタイムの場合でもアルゴリズムのノイズモデルが有効であることを確認する。

私たちは、この非同期画像化メカニズムの潜在能力を実験的に実証しました。その能力とは、(1)同期せずに大幅に異なる速度で動作する光源(電球、プロジェクター、複数のパルスレーザー)によって同時に照らされたシーンの画像化、(2)パッシブな視線外ビデオ取得、(3)日常の動きを示すために後で30Hzで再生できる超広帯域ビデオの記録、また光自体の伝播を示すために10億倍遅く再生することもできるビデオの記録です。

2 つ目は、ControNet と呼ばれるものです。

論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
著者: Lvmin Zhang、Anyi Rao、Maneesh Agrawala
機関: スタンフォード大学

概要: 本論文では、エンドツーエンドのニューラルネットワークアーキテクチャ ControlNet を提案します。これは、拡散モデルを制御するための追加条件 (安定拡散など) を追加することで画像間効果を改善し、線画からフルカラー画像を生成し、同じ深層構造を持つ画像を生成し、手のキーポイントを通じて手の生成を最適化することができます。

ControlNetの核となるアイデアは、テキスト記述に加えていくつかの追加条件を追加して拡散モデル（安定した拡散など）を制御し、生成された画像の文字の姿勢、深さ、画像構造などの情報をより適切に制御することです。

ここでの追加条件は画像の形式で入力されます。モデルは、この入力画像に基づいて、Canny エッジ検出、深度検出、セマンティックセグメンテーション、Hough 変換線検出、全体的ネストエッジ検出 (HED)、人間の姿勢認識などを実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きをフルカラー画像に直接変換したり、同じ深層構造を持つ画像を生成したりすることができます。また、手のキーポイントを通じてキャラクターの手の生成を最適化することもできます。

詳細については、Machine Heart のレポート「AI の次元削減が人間の画家に衝撃を与え、文化的なイメージが ControlNet に導入され、深度とエッジ情報が完全に再利用される」を参照してください。

最優秀論文賞ノミネート: SAM

今年4月、Meta社は、あらゆる画像や動画内のあらゆるオブジェクトのマスクを生成できるAIモデル「Segment Everything（SAM）」をリリースし、コンピュータービジョン（CV）分野の研究者らから「CVはもう存在しない」という声が上がった。

今日、この待望の論文は、このジャーナルの最優秀論文にノミネートされました。

論文アドレス: https://arxiv.org/abs/2304.02643
代理店: メタAI

はじめに: これまで、セグメンテーション問題を解決するには、大きく分けて 2 つのアプローチがありました。 1 つ目はインタラクティブなセグメンテーションです。これにより、あらゆるクラスのオブジェクトをセグメント化できますが、マスクを繰り返し調整することで人間が方法をガイドする必要があります。 2 つ目の自動セグメンテーションでは、事前に定義された特定のオブジェクトカテゴリ (猫や椅子など) をセグメント化できますが、トレーニングには手動で注釈が付けられた多数のオブジェクト (セグメント化された猫の例が数千、数万個など) が必要です。どちらのアプローチも、一般的な、完全に自動化されたセグメンテーション方法を提供しません。

Meta が提案した SAM は、これら 2 つの方法をうまくまとめています。インタラクティブなセグメンテーションと自動セグメンテーションの両方を簡単に実行できる単一のモデルです。モデルのヒント可能なインターフェースにより、ユーザーはモデルに適切なヒント (クリック、ボックス、テキストなど) を設計するだけで、モデルを柔軟に使用して、さまざまなセグメンテーションタスクを実行できます。

これらの機能を組み合わせることで、SAM を新しいタスクやドメインに一般化できるようになります。この柔軟性は、画像セグメンテーションの分野では初めてのものです。

詳しい紹介はMachine Heartレポート「CVはもう存在しない？」をご覧ください。 Meta が「すべてを分割する」AI モデルをリリース、CV が GPT-3 の時代を先導する可能性

最優秀学生論文

この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者らによって実施され、コーネル工科大学の博士課程学生であるQianqian Wang氏が第一著者となった。彼らは、ビデオ内の各ピクセルに対して正確で完全な動きの推定を実行するための、完全かつ全体的に一貫した動きの表現である OmniMotion と、新しいテスト時間最適化手法を共同で提案しました。

論文アドレス: https://arxiv.org/abs/2306.05422
プロジェクトホームページ: https://omnimotion.github.io/

概要: コンピュータービジョンの分野では、スパースフィーチャトラッキングと高密度オプティカルフローの 2 つの一般的な動き推定方法が使用されます。ただし、どちらの方法にも欠点があります。スパースフィーチャトラッキングではすべてのピクセルの動きをモデル化できず、高密度オプティカルフローでは長時間にわたる動きの軌跡をキャプチャできません。

本研究で提案された OmniMotion は、準 3D 標準ボリュームを使用してビデオを表現し、ローカル空間と標準空間間の一対一変換を通じて各ピクセルを追跡します。この表現は、全体的な一貫性を保証し、オブジェクトが遮蔽されている場合でもモーショントラッキングを可能にし、カメラとオブジェクトの動きのあらゆる組み合わせをモデル化します。この研究では、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験を通じて実証しました。

詳細については、Synced レポートを参照してください: 「『すべてを追跡する』ビデオアルゴリズムがここにあります。いつでもどこでも、遮蔽を恐れることなく、すべてのピクセルを追跡します。」

もちろん、これらの受賞論文以外にも、今年の ICCV には注目に値する優れた論文が数多く掲載されています。最後に、受賞論文 17 件の初期リストを添付します。

<<: スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

>>: アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中