ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。

ICCVはコンピュータビジョン分野における世界最高峰の学術会議として2年ごとに開催されています。

CVPR と同様に、ICCV の人気は新たな高みに達し続けています。

本日の開会式で、ICCVは今年の論文データを正式に発表しました。今年のICCVへの提出論文総数は8,068件に達し、そのうち2,160件が採択され、採択率は26.8%で、前回のICCV 2021の採択率25.9%をわずかに上回りました。

論文トピックに関して、関係者は関連データも発表した。マルチビューとセンサーによる3Dが最も人気がある。

本日の開会式の最も重要な内容は、もちろん表彰式です。それでは、最優秀論文、最優秀論文ノミネート、最優秀学生論文を順に発表させていただきます。

最優秀論文賞 - マー賞

今年は合計2本の論文が最優秀論文賞(Mar Prize)を受賞しました。

最初のものはトロント大学の研究者によるものです。


  • 論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf
  • 著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
  • 機関: トロント大学

概要: この論文では、極限の時間スケール (数秒からピコ秒​​) で動的シーンを同時に、しかも大量の光や光源からのタイミング信号なしで受動的に画像化する問題について検討します。単一光子カメラの既存のフラックス推定技術はこの設定では機能しないため、確率計算からの洞察を引き出し、単調に増加する光子検出タイムスタンプのストリームからピクセルでの時間変動フラックスの再構築を可能にするフラックス検出理論を開発しました。

本論文では、この理論を利用して、(1)パッシブフリーランニングSPADカメラが低フラックス条件下でDCから31GHzの全範囲にわたる達成可能な周波数帯域幅を持つことを示す、(2)新しいフーリエ領域フラックス再構成アルゴリズムを導出する、(3)非常に低い光子数や無視できないデッドタイムの​​場合でもアルゴリズムのノイズモデルが有効であることを確認する。

私たちは、この非同期画像化メカニズムの潜在能力を実験的に実証しました。その能力とは、(1)同期せずに大幅に異なる速度で動作する光源(電球、プロジェクター、複数のパルスレーザー)によって同時に照らされたシーンの画像化、(2)パッシブな視線外ビデオ取得、(3)日常の動きを示すために後で30Hzで再生できる超広帯域ビデオの記録、また光自体の伝播を示すために10億倍遅く再生することもできるビデオの記録です。

2 つ目は、ControNet と呼ばれるものです。

  • 論文アドレス: https://arxiv.org/pdf/2302.05543.pdf
  • 著者: Lvmin Zhang、Anyi Rao、Maneesh Agrawala
  • 機関: スタンフォード大学

概要: 本論文では、エンドツーエンドのニューラル ネットワーク アーキテクチャ ControlNet を提案します。これは、拡散モデルを制御するための追加条件 (安定拡散など) を追加することで画像間効果を改善し、線画からフルカラー画像を生成し、同じ深層構造を持つ画像を生成し、手のキー ポイントを通じて手の生成を最適化することができます。

ControlNetの核となるアイデアは、テキスト記述に加えていくつかの追加条件を追加して拡散モデル(安定した拡散など)を制御し、生成された画像の文字の姿勢、深さ、画像構造などの情報をより適切に制御することです。

ここでの追加条件は画像の形式で入力されます。モデルは、この入力画像に基づいて、Canny エッジ検出、深度検出、セマンティック セグメンテーション、Hough 変換線検出、全体的ネスト エッジ検出 (HED)、人間の姿勢認識などを実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きをフルカラー画像に直接変換したり、同じ深層構造を持つ画像を生成したりすることができます。また、手のキーポイントを通じてキャラクターの手の生成を最適化することもできます。

詳細については、Machine Heart のレポート「AI の次元削減が人間の画家に衝撃を与え、文化的なイメージが ControlNet に導入され、深度とエッジ情報が完全に再利用される」を参照してください。

最優秀論文賞ノミネート: SAM

今年4月、Meta社は、あらゆる画像や動画内のあらゆるオブジェクトのマスクを生成できるAIモデル「Segment Everything(SAM)」をリリースし、コンピュータービジョン(CV)分野の研究者らから「CVはもう存在しない」という声が上がった。

今日、この待望の論文は、このジャーナルの最優秀論文にノミネートされました。

  • 論文アドレス: https://arxiv.org/abs/2304.02643
  • 代理店: メタAI

はじめに: これまで、セグメンテーション問題を解決するには、大きく分けて 2 つのアプローチがありました。 1 つ目はインタラクティブなセグメンテーションです。これにより、あらゆるクラスのオブジェクトをセグメント化できますが、マスクを繰り返し調整することで人間が方法をガイドする必要があります。 2 つ目の自動セグメンテーションでは、事前に定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化できますが、トレーニングには手動で注釈が付けられた多数のオブジェクト (セグメント化された猫の例が数千、数万個など) が必要です。どちらのアプローチも、一般的な、完全に自動化されたセグメンテーション方法を提供しません。

Meta が提案した SAM は、これら 2 つの方法をうまくまとめています。インタラクティブなセグメンテーションと自動セグメンテーションの両方を簡単に実行できる単一のモデルです。モデルのヒント可能なインターフェースにより、ユーザーはモデルに適切なヒント (クリック、ボックス、テキストなど) を設計するだけで、モデルを柔軟に使用して、さまざまなセグメンテーション タスクを実行できます。

これらの機能を組み合わせることで、SAM を新しいタスクやドメインに一般化できるようになります。この柔軟性は、画像セグメンテーションの分野では初めてのものです。

詳しい紹介はMachine Heartレポート「CVはもう存在しない?」をご覧ください。 Meta が「すべてを分割する」AI モデルをリリース、CV が GPT-3 の時代を先導する可能性

最優秀学生論文

この研究はコーネル大学、Google Research、カリフォルニア大学バークレー校の研究者らによって実施され、コーネル工科大学の博士課程学生であるQianqian Wang氏が第一著者となった。彼らは、ビデオ内の各ピクセルに対して正確で完全な動きの推定を実行するための、完全かつ全体的に一貫した動きの表現である OmniMotion と、新しいテスト時間最適化手法を共同で提案しました。

  • 論文アドレス: https://arxiv.org/abs/2306.05422
  • プロジェクトホームページ: https://omnimotion.github.io/

概要: コンピューター ビジョンの分野では、スパース フィーチャ トラッキングと高密度オプティカル フローの 2 つの一般的な動き推定方法が使用されます。ただし、どちらの方法にも欠点があります。スパース フィーチャ トラッキングではすべてのピクセルの動きをモデル化できず、高密度オプティカル フローでは長時間にわたる動きの軌跡をキャプチャできません。

本研究で提案された OmniMotion は、準 3D 標準ボリュームを使用してビデオを表現し、ローカル空間と標準空間間の一対一変換を通じて各ピクセルを追跡します。この表現は、全体的な一貫性を保証し、オブジェクトが遮蔽されている場合でもモーション トラッキングを可能にし、カメラとオブジェクトの動きのあらゆる組み合わせをモデル化します。この研究では、提案された方法が既存の SOTA 方法よりも大幅に優れていることを実験を通じて実証しました。

詳細については、Synced レポートを参照してください: 「『すべてを追跡する』ビデオ アルゴリズムがここにあります。いつでもどこでも、遮蔽を恐れることなく、すべてのピクセルを追跡します。」

もちろん、これらの受賞論文以外にも、今年の ICCV には注目に値する優れた論文が数多く掲載されています。最後に、受賞論文 17 件の初期リストを添付します。

<<:  スタンフォードNLPコースXCS224Uのビデオが公開されました。実用的な情報が満載です。ぜひ聞いてください。

>>:  アマゾンは40億ドルを投資し、グーグルや他の企業もさらに20億ドルを投資する予定で、アントロピックの評価額は急上昇中

ブログ    
ブログ    
ブログ    

推薦する

Baidu: 無料で公開されている LinearFold アルゴリズムにより、RNA 分析を 55 分から 27 秒に短縮できます

百度が1月30日に発表した公式ニュースによると、百度はウイルスRNAの解析時間を55分から27秒に短...

マイクロソフトCEO、テクノロジー大手各社がAIを訓練するためのコンテンツをめぐって競争していると語る

ナデラ氏は最近、米国政府によるグーグルに対する反トラスト訴訟で証言した。これは、米国政府が1998年...

中国は人工知能研究で米国を追い越している

米スタンフォード大学の報告によると、2020年の学術誌におけるAI関連論文の引用率は中国が20.7%...

AIには意識があるのでしょうか?意識の定義から始めましょう

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

サプライチェーン管理における AI イノベーションを活用するために従業員を再教育する方法

サプライチェーン管理は最適化ゲームです。 AI の導入により、企業は最適な成果の達成にさらに注力でき...

2021 年の Python 機械学習ライブラリ トップ 10

Python は機械学習にとって最も鋭い武器であると言えます。また、機械学習は Python の影...

自動運転の簡単な分析 - 衝突防止警報システム

朝起きると、自分が遅く起きたことに気づきます。時間通りに会社に着いて出勤記録を残さないようにし、勤怠...

自動車ドメインコントローラの統合アーキテクチャの背景、利点、設計を1つの記事で理解する

車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...

AIはキーボードの音を聞いてパスワードを盗むことができ、その精度は最大95%

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

組み込みアルゴリズム: ビッグデータ可変長ストレージアルゴリズム

1. 適用シナリオ高精度のサンプリング結果の場合、最大値には 3 バイト、最小値には 1 バイトが必...

...

99.9%の精度!小園口算は算数の問題をAIで訂正しており、誤り率は小学校教師の10分の1に過ぎない。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

市場規模が100億ドルに迫る中、外科用ロボットはどのように発展していくのでしょうか?

近年、世界各国は医療の発展に継続的に注目しており、スマート医療や精密医療などの概念がこのトレンドを活...