ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

ICCV'23論文表彰式は「神々の戦い」! Meta Split EverythingとControlNetが両方とも選出され、審査員を驚かせた記事がもう一つありました

たった今、コンピュータービジョンの最高峰カンファレンスである ICCV 2023 がフランスのパリで正式に「賞をオープン」しました。

今年の最優秀論文賞は、まさに「神々の戦い」です。

例えば、最優秀論文賞を受賞した2つの論文のうちの1つは、文勝図AIの分野に革命をもたらした研究であるControlNetでした。

ControlNet はオープンソース化されて以来、GitHub で 24,000 個のスターを獲得しています。この論文は、拡散モデルとしても、コンピュータービジョンの分野全体としても、この賞に値するものです。

最優秀論文賞の佳作は、同じく有名なもう 1 つの論文、Meta の「Split Everything」モデル SAM に贈られました。

Segment Everything は発売以来、FastSAM、LISA、SegGPT などの多くの後続モデルを含むさまざまな画像セグメンテーション AI モデルの「ベンチマーク」となり、パフォーマンス テストの参照ベンチマークとして使用されています。

論文ノミネートは非常に重要です。ICCV 2023 の競争はどれほど激しいのでしょうか?

全体として、ICCV 2023には合計8,068件の論文が提出されましたが、そのうち約4分の1にあたる2,160件のみが採択されました。

論文の約10%は中国からのもので、大学のほか、産業界の機関も多く、例えば、SenseTimeとその共同研究室はICCV 2023に49本の論文が選ばれており、Megviiは14本の論文が選ばれている。

ICCV 2023の受賞論文を見てみましょう。

ControlNetがICCV最優秀論文賞を受賞

まずは、今年度の優秀論文賞(Mar Prize)を受賞した2つの論文を見てみましょう。

ICCV 最優秀論文賞はMarr 賞とも呼ばれ2 年ごとに授与され、コンピューター ビジョンの分野における最高の栄誉の 1 つとされています。

この賞は、コンピューター ビジョンの父、コンピューター ビジョンの先駆者、計算神経科学の創始者である David Courtnay Marr にちなんで名付けられました。

最初の最優秀論文賞はスタンフォード大学から贈られた「テキストから画像への拡散モデルへの条件付き制御の追加」です。

この論文では、事前学習済みの拡散モデルによって生成された詳細を、追加の入力を加えるだけで制御できるControlNetと呼ばれるモデルを提案しています。

ここでの入力は、スケッチ、エッジ画像、セマンティックセグメンテーション画像、人間のキーポイントの特徴、ハフ変換検出直線、深度マップ、人間の骨格など、さまざまなタイプにすることができます。いわゆる「AIが手を描くことができる」、コア技術はこの記事から来ています。

その考え方と構造は次のとおりです。

ControlNet はまず拡散モデルの重みをコピーして、「トレーニング可能なコピー」を取得します。

対照的に、元の拡散モデルは数十億枚の画像で事前トレーニングされていたため、パラメータは「ロック」されていました。この「トレーニング可能なコピー」は、条件付き制御を学習するために、特定のタスクの小さなデータセットでトレーニングするだけで済みます。

データ量が少ない場合(画像 50,000 枚以下)でも、モデルはトレーニング後に良好な条件付き制御結果を生成できます。

「ロックされたモデル」と「トレーニング可能なコピー」は、「0 畳み込み層」と呼ばれる 1×1 畳み込み層によって接続されます。畳み込み層の重みとバイアスは 0 に初期化されるため、トレーニングが非常に高速になり、拡散モデルの微調整の速度に近くなり、個人のデバイスでもトレーニングできます。

たとえば、NVIDIA RTX 3090TI では、200,000 枚の画像データを使用してトレーニングするのに 1 週​​間もかかりません。

ControlNet 論文の第一著者である Lvmin Zhang 氏は、現在スタンフォード大学の博士課程に在籍しています。ControlNet のほかにも、Style2Paints や Fooocus などの有名な作品も作成しています。

論文アドレス: https://arxiv.org/abs/2302.05543

2 番目の論文「パッシブ超広帯域シングル光子イメージング」はトロント大学からのものです。

この論文は選考委員会によって「このテーマに関する最も驚くべき論文」と呼ばれ、審査員の一人は「彼がこのようなことを試みようとは到底考えられなかった」と述べたほどである。

論文の要約は次のとおりです。

この記事では、極端な時間スケール (数秒からピコ秒​​) で動的なシーンを同時に画像化する方法について説明します。画像化は、受動的に (大量の光信号を能動的に送信せずに)、非常にまばらな光の状況で、光源からのタイミング信号に依存せずに実行する必要があります。

単一光子カメラの既存の光フロー推定技術はこの範囲では機能しないため、本論文では確率計算のアイデアを借用して、単調に増加する光子検出タイムスタンプのストリームからピクセルの時間変化する光フローを再構築する光フロー検出の理論を開発します。

この理論に基づいて、この論文では主に次の 3 つのことを行いました。
(1)低光束条件下では、受動型フリーランニング単一光子波長検出器カメラがDCから31GHzまでの全周波数スペクトルにわたる達成可能な周波数帯域幅を有することを実証する。
(2)タイムスタンプデータにおいて統計的に有意なサポートを持つ周波数をスキャンするための新しいフーリエ領域光学フロー再構成アルゴリズムを導出する。
(3)光子数が非常に少ない場合やデッドタイムが無視できない場合でも、アルゴリズムのノイズモデルが有効であることを確認する。

著者らは、これまでにない機能も含め、この非同期イメージング手法の可能性を実験的に実証しました。
(1)同期せずに異なる速度で動作する光源(ランプ、プロジェクター、マルチパルスレーザーなど)によって同時に照らされたシーンを画像化する。
(2)パッシブ非視線ビデオ取得
(3)日常的な動きを30Hzで再生できるだけでなく、光の伝播を10億分の1秒の速度で再生できる超広帯域映像を録画する。

論文の筆頭著者である Mian Wei 氏は、トロント大学の博士課程の学生です。彼の研究分野は計算写真学です。彼の現在の研究対象は、アクティブ照明イメージング技術に基づくコンピューター ビジョン アルゴリズムの改善です。

論文アドレス: https://openaccess.thecvf.com/content/ICCV2023/papers/Wei_Passive_Ultra-Wideband_Single-Photon_Imaging_ICCV_2023_paper.pdf

「すべてを分割する」は佳作に選ばれた

大いに期待されていた ControNet に加えて、人気の高い Meta の「Split Everything」モデルがカンファレンスの最優秀論文賞にノミネートされました。

この論文では、1,100 万枚の画像に 10 億を超えるマスクを含む、現在最大の画像セグメンテーション データセットを提案するだけでなく、そのための SAM モデルをトレーニングして、見えない画像を迅速にセグメント化できるようにします。

これまでの散在画像セグメンテーションモデルと比較すると、SAM はこのシリーズのモデルの機能を「統合」したと言え、さまざまなタスクで優れたパフォーマンスを示しています。

現在、このオープンソースモデルは GitHub で 38.8k 個のスターを獲得しており、セマンティックセグメンテーション業界の「ベンチマーク」と言えます。

論文アドレス: https://arxiv.org/abs/2304.02643
プロジェクトホームページ: https://segment-anything.com/

学生の作品の中では、Google が提案した「すべてを追跡する」モデルが目立っていました。

記事のタイトルのように、このモデルは、画像内の任意の(複数の)オブジェクトをピクセルレベルで任意の場所で同時に追跡できます。

このプロジェクトの第一著者は、現在コーネル大学で博士研究員として研究を行っているコーネル大学の中国人博士課程の学生、Qianqian Wang 氏です。

論文アドレス: https://arxiv.org/abs/2306.05422
プロジェクトホームページ: https://omnimotion.github.io/

さらに、開会式では、PAMITC 委員会のメンバーから寄贈された特別賞が発表されました。委員会は、2 つのコンピューター ビジョン カンファレンス、CVPR と WACV にも賞を寄贈しました。

受賞する 4 つの賞は次のとおりです。

  • ヘルムホルツ賞: 10年前にコンピュータービジョン研究に大きな影響を与えたICCV論文
  • エベリンガム賞: コンピュータビジョンの進歩
  • 優秀研究者:コンピュータビジョンの発展に多大な貢献をした研究者
  • ローゼンフェルド生涯功労賞:長年にわたりコンピュータビジョンの分野に多大な貢献をした研究者に贈られる賞

ヘルムホルツ賞の受賞者には、Meta AIの中国系アメリカ人科学者ヘン・ワン氏とGoogleのコーデリア・シュミット氏が含まれている。

彼らは2013年の動作認識に関する論文でこの賞を受賞した。

当時、二人はフランス国立情報学・自動化研究所(INRIA)のリア研究所で働いており、シュミット氏がそのリーダーを務めていた。

論文アドレス: https://ieeexplore.ieee.org/document/6751553

エベリンガム賞は2チームに授与されました。

最初の受賞者は、Google の Samer Agarwal 氏、Keir Mierle 氏、および彼らのチームです。

受賞者 2 名は、それぞれワシントン大学とトロント大学の卒業生です。受賞作品は、コンピューター ビジョンの分野で広く使用されているオープン ソースの C++ ライブラリである Ceres Solver です。

プロジェクトのホームページ: http://ceres-solver.org/

もう一つの受賞成果は COCO データセットです。これは、多数の画像と注釈を含み、豊富なコンテンツとタスクを備え、コンピューター ビジョン モデルのテストに重要なデータセットです。

このデータセットはマイクロソフトが提案したもので、関連論文の第一著者は中国系アメリカ人科学者のツン・イー・リン氏です。同氏はコーネル大学で博士号を取得し、現在はNVIDIA Labsの研究員です。


論文アドレス: https://arxiv.org/abs/1405.0312
プロジェクトホームページ: https://cocodataset.org/

優秀研究者の栄誉を受けた2人の教授は、ドイツのマックス・プランク研究所のマイケル・ブラック教授とジョンズ・ホプキンス大学のラマ・シェラッパ教授でした。

MITのテッド・アデルソン教授が生涯功労賞を受賞した。

あなたの論文は ICCV 2023 に採択されましたか?今年の受賞作品の選定についてどう思いますか?

<<:  コーダーの皆さん、おめでとうございます!マイクロソフトは、LLMを使用して168のコードベースにわたるコーディングタスクを自動化するCodePlanを提案している。

>>:  GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は人間の言語を習得したのか?見た目は騙されることがある

[[247418]]人工知能の分野における成果は、誤解されやすく、過大評価されやすい。このことは、人...

...

これは陰謀論ですか? AIさん、どう思いますか?

[[385257]]ビッグデータダイジェスト制作出典: iflscience編集:赤道のパンダボデ...

人工知能の新たな用途:死者の蘇生

映画では必ず蘇生のシーンが出てきますが、現実の世界でも人間を冷凍保存するプロジェクトがあります。その...

ディープフィードフォワードシーケンスメモリニューラルネットワークに基づく大語彙連続音声認識

【51CTO.comオリジナル記事】まとめ本研究では、ディープフィードフォワードシーケンスメモリニュ...

革新的な人工視覚脳インプラントが初めて視覚障害者に移植される

現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...

最も強力な AI 搭載スマートフォンに関する神の視点: iPhone X

世界中で人気のiPhone Xがついに登場。バージョン番号を埋めるためだけに名付けられたiPhone...

...

ハッシュアルゴリズムに基づくMySQLテーブルパーティション

以下に紹介する Mysql テーブルのパーティショニング プロセスは、ハッシュ アルゴリズムに基づい...

科学者たちはショウジョウバエの脳をハッキングしてNLPタスクを実行し、BERTよりも効率的であることを発見した。

人工ニューラルネットワークを長い間研究した後、動物の答えをコピーして貼り付ける方が良いのでしょうか?...

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーシ...

定量評価、アルゴリズム拡張:強化学習研究の10原則

[[252430]]ビッグデータダイジェスト制作編纂者:江宝尚今年 9 月に開催された Deep L...

...

Hacker Newsのランキングアルゴリズムの仕組み

[[83666]]この記事では、Hacker News ウェブサイトの記事ランキング アルゴリズムの...

ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ニューラル ネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解...