ICCV'23論文表彰式は「神々の戦い」！ Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで正式に「賞をオープン」しました。

今年の最優秀論文賞は、まさに「神々の戦い」です。

例えば、最優秀論文賞を受賞した2つの論文のうちの1つは、文勝図AIの分野に革命をもたらした研究であるControlNetでした。

ControlNet はオープンソース化されて以来、GitHub で 24,000 個のスターを獲得しています。この論文は、拡散モデルとしても、コンピュータービジョンの分野全体としても、この賞に値するものです。

最優秀論文賞の佳作は、同じく有名なもう 1 つの論文、Meta の「Split Everything」モデル SAM に贈られました。

Segment Everything は発売以来、FastSAM、LISA、SegGPT などの多くの後続モデルを含むさまざまな画像セグメンテーション AI モデルの「ベンチマーク」となり、パフォーマンステストの参照ベンチマークとして使用されています。

論文ノミネートは非常に重要です。ICCV 2023 の競争はどれほど激しいのでしょうか?

全体として、ICCV 2023には合計8,068件の論文が提出されましたが、そのうち約4分の1にあたる2,160件のみが採択されました。

論文の約10％は中国からのもので、大学のほか、産業界の機関も多く、例えば、SenseTimeとその共同研究室はICCV 2023に49本の論文が選ばれており、Megviiは14本の論文が選ばれている。

ICCV 2023の受賞論文を見てみましょう。

ControlNetがICCV最優秀論文賞を受賞

まずは、今年度の優秀論文賞（Mar Prize）を受賞した2つの論文を見てみましょう。

ICCV 最優秀論文賞はMarr 賞とも呼ばれ、 2 年ごとに授与され、コンピュータービジョンの分野における最高の栄誉の 1 つとされています。

この賞は、コンピュータービジョンの父、コンピュータービジョンの先駆者、計算神経科学の創始者である David Courtnay Marr にちなんで名付けられました。

最初の最優秀論文賞はスタンフォード大学から贈られた「テキストから画像への拡散モデルへの条件付き制御の追加」です。

この論文では、事前学習済みの拡散モデルによって生成された詳細を、追加の入力を加えるだけで制御できるControlNetと呼ばれるモデルを提案しています。

ここでの入力は、スケッチ、エッジ画像、セマンティックセグメンテーション画像、人間のキーポイントの特徴、ハフ変換検出直線、深度マップ、人間の骨格など、さまざまなタイプにすることができます。いわゆる「AIが手を描くことができる」、コア技術はこの記事から来ています。

その考え方と構造は次のとおりです。

ControlNet はまず拡散モデルの重みをコピーして、「トレーニング可能なコピー」を取得します。

対照的に、元の拡散モデルは数十億枚の画像で事前トレーニングされていたため、パラメータは「ロック」されていました。この「トレーニング可能なコピー」は、条件付き制御を学習するために、特定のタスクの小さなデータセットでトレーニングするだけで済みます。

データ量が少ない場合（画像 50,000 枚以下）でも、モデルはトレーニング後に良好な条件付き制御結果を生成できます。

「ロックされたモデル」と「トレーニング可能なコピー」は、「0 畳み込み層」と呼ばれる 1×1 畳み込み層によって接続されます。畳み込み層の重みとバイアスは 0 に初期化されるため、トレーニングが非常に高速になり、拡散モデルの微調整の速度に近くなり、個人のデバイスでもトレーニングできます。

たとえば、NVIDIA RTX 3090TI では、200,000 枚の画像データを使用してトレーニングするのに 1 週間もかかりません。

ControlNet 論文の第一著者である Lvmin Zhang 氏は、現在スタンフォード大学の博士課程に在籍しています。ControlNet のほかにも、Style2Paints や Fooocus などの有名な作品も作成しています。

論文アドレス: https://arxiv.org/abs/2302.05543

2 番目の論文「パッシブ超広帯域シングル光子イメージング」はトロント大学からのものです。

この論文は選考委員会によって「このテーマに関する最も驚くべき論文」と呼ばれ、審査員の一人は「彼がこのようなことを試みようとは到底考えられなかった」と述べたほどである。

論文の要約は次のとおりです。

この記事では、極端な時間スケール (数秒からピコ秒) で動的なシーンを同時に画像化する方法について説明します。画像化は、受動的に (大量の光信号を能動的に送信せずに)、非常にまばらな光の状況で、光源からのタイミング信号に依存せずに実行する必要があります。

単一光子カメラの既存の光フロー推定技術はこの範囲では機能しないため、本論文では確率計算のアイデアを借用して、単調に増加する光子検出タイムスタンプのストリームからピクセルの時間変化する光フローを再構築する光フロー検出の理論を開発します。

この理論に基づいて、この論文では主に次の 3 つのことを行いました。
（１）低光束条件下では、受動型フリーランニング単一光子波長検出器カメラがDCから31GHzまでの全周波数スペクトルにわたる達成可能な周波数帯域幅を有することを実証する。
（２）タイムスタンプデータにおいて統計的に有意なサポートを持つ周波数をスキャンするための新しいフーリエ領域光学フロー再構成アルゴリズムを導出する。
（３）光子数が非常に少ない場合やデッドタイムが無視できない場合でも、アルゴリズムのノイズモデルが有効であることを確認する。

著者らは、これまでにない機能も含め、この非同期イメージング手法の可能性を実験的に実証しました。
（１）同期せずに異なる速度で動作する光源（ランプ、プロジェクター、マルチパルスレーザーなど）によって同時に照らされたシーンを画像化する。
（２）パッシブ非視線ビデオ取得
（３）日常的な動きを30Hzで再生できるだけでなく、光の伝播を10億分の1秒の速度で再生できる超広帯域映像を録画する。

論文の筆頭著者である Mian Wei 氏は、トロント大学の博士課程の学生です。彼の研究分野は計算写真学です。彼の現在の研究対象は、アクティブ照明イメージング技術に基づくコンピュータービジョンアルゴリズムの改善です。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「すべてを分割する」は佳作に選ばれた

大いに期待されていた ControNet に加えて、人気の高い Meta の「Split Everything」モデルがカンファレンスの最優秀論文賞にノミネートされました。

この論文では、1,100 万枚の画像に 10 億を超えるマスクを含む、現在最大の画像セグメンテーションデータセットを提案するだけでなく、そのための SAM モデルをトレーニングして、見えない画像を迅速にセグメント化できるようにします。

これまでの散在画像セグメンテーションモデルと比較すると、SAM はこのシリーズのモデルの機能を「統合」したと言え、さまざまなタスクで優れたパフォーマンスを示しています。

現在、このオープンソースモデルは GitHub で 38.8k 個のスターを獲得しており、セマンティックセグメンテーション業界の「ベンチマーク」と言えます。

論文アドレス: https://arxiv.org/abs/2304.02643
プロジェクトホームページ: https://segment-anything.com/

学生の作品の中では、Google が提案した「すべてを追跡する」モデルが目立っていました。

記事のタイトルのように、このモデルは、画像内の任意の（複数の）オブジェクトをピクセルレベルで任意の場所で同時に追跡できます。

このプロジェクトの第一著者は、現在コーネル大学で博士研究員として研究を行っているコーネル大学の中国人博士課程の学生、Qianqian Wang 氏です。

論文アドレス: https://arxiv.org/abs/2306.05422
プロジェクトホームページ: https://omnimotion.github.io/

さらに、開会式では、PAMITC 委員会のメンバーから寄贈された特別賞が発表されました。委員会は、2 つのコンピュータービジョンカンファレンス、CVPR と WACV にも賞を寄贈しました。

受賞する 4 つの賞は次のとおりです。

ヘルムホルツ賞: 10年前にコンピュータービジョン研究に大きな影響を与えたICCV論文
エベリンガム賞: コンピュータビジョンの進歩
優秀研究者：コンピュータビジョンの発展に多大な貢献をした研究者
ローゼンフェルド生涯功労賞：長年にわたりコンピュータビジョンの分野に多大な貢献をした研究者に贈られる賞

ヘルムホルツ賞の受賞者には、Meta AIの中国系アメリカ人科学者ヘン・ワン氏とGoogleのコーデリア・シュミット氏が含まれている。

彼らは2013年の動作認識に関する論文でこの賞を受賞した。

当時、二人はフランス国立情報学・自動化研究所（INRIA）のリア研究所で働いており、シュミット氏がそのリーダーを務めていた。

論文アドレス: https://ieeexplore.ieee.org/document/6751553

エベリンガム賞は2チームに授与されました。

最初の受賞者は、Google の Samer Agarwal 氏、Keir Mierle 氏、および彼らのチームです。

受賞者 2 名は、それぞれワシントン大学とトロント大学の卒業生です。受賞作品は、コンピュータービジョンの分野で広く使用されているオープンソースの C++ ライブラリである Ceres Solver です。

プロジェクトのホームページ: http://ceres-solver.org/

もう一つの受賞成果は COCO データセットです。これは、多数の画像と注釈を含み、豊富なコンテンツとタスクを備え、コンピュータービジョンモデルのテストに重要なデータセットです。

このデータセットはマイクロソフトが提案したもので、関連論文の第一著者は中国系アメリカ人科学者のツン・イー・リン氏です。同氏はコーネル大学で博士号を取得し、現在はNVIDIA Labsの研究員です。

論文アドレス: https://arxiv.org/abs/1405.0312
プロジェクトホームページ: https://cocodataset.org/

優秀研究者の栄誉を受けた2人の教授は、ドイツのマックス・プランク研究所のマイケル・ブラック教授とジョンズ・ホプキンス大学のラマ・シェラッパ教授でした。

MITのテッド・アデルソン教授が生涯功労賞を受賞した。

あなたの論文は ICCV 2023 に採択されましたか?今年の受賞作品の選定についてどう思いますか？

<<: コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

>>: GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者：上級ユーザー必読

ICCV'23論文表彰式は「神々の戦い」！ Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

ControlNetがICCV最優秀論文賞を受賞

「すべてを分割する」は佳作に選ばれた

西側メディア：将来の兵士はロボットの「羊飼い」になる

推論性能はH100の10倍！ 21歳の中国人男性がハーバード大学を中退しAI加速チップ「Sohu」を開発、2人の会社の価値は3400万ドル

AIは「技術力」の集中を加速させる。巨大企業によるAIの独占は深刻な結果をもたらすのか？

機械学習がサプライチェーン管理を変える10の方法

元従業員が内部事情を暴露: 10年経っても、なぜGoogleはナレッジグラフを解明できないのか?

なぜクラウドアーキテクトとクラウドエンジニアの両方が必要なのでしょうか?

一目でわかるアルゴリズム「配列と連結リスト」

BaiduのHou Zhenyu氏：ビッグモデルがクラウドコンピューティングを再形成し、AIネイティブクラウドがクラウドコンピューティングの様相を変える

国家教科書委員会：ブロックチェーン、AIなどの分野を中心に新しい教科書が多数編纂されます！

推薦する

快手の生活行動モデリングソリューションTWINは、数年分の過去のビデオをレビューし、ユーザーの隠れた興味を探ることで、KDD 2023に選ばれました。

コンピュータビジョンのための 9 つのオープンソースデータセット

GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる

信頼できるAIを開発する方法

誰もがプログラミングアシスタントを持っています!北京大学の最も強力なコードモデル CodeShell-7B はオープンソースであり、最高のパフォーマンスと IDE プラグインを備えています。

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

今後 20 年間で人工知能は何ができるでしょうか?

マイクロソフトが新しいハイブリッド会議機能をリリース: Teams Rooms、リモートプレゼンテーションカメオ、Viva Connections モバイルアプリ

GPT-4V はどのようにして数学的推論を実行するのでしょうか?マイクロソフトがMathVistaベンチマークを発表、評価レポートは112ページ

清華大学（AIR）とインテリジェントヘルスコンピューティング共同研究センターが正式に設立され、健康管理における新たなパラダイムを推進する。

機械学習の7つのステップ

PyTorch「錬金術」の速度を向上させるにはどうすればいいですか?この人は直接変更できる17の方法をまとめました

ディープラーニングによる物体検出モデルの包括的なレビュー: 高速 R-CNN、R-FCN、SSD

人間と機械の統合はなぜ難しいのでしょうか?