画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました

画像の混合を利用してより細かい特徴表現を学習するCMU Xing Boのチームの新しい論文がAAAIに選出されました

これは、カーネギーメロン大学とカリフォルニア大学バークレー校の Eric Xing 氏と Trevor Darrell 氏のチームが共同で作成した論文で、自己教師付き双子構造での画像混合を通じて、よりきめ細かい特徴表現を学習する方法を探求しており、AAAI 2022 に選ばれました。

  • 論文リンク: https://arxiv.org/pdf/2003.05438.pdf
  • コードリンク: https://github.com/szq0214/Un-Mix

この記事の核となるアイデアは非常に直感的で理解しやすいものです。自己教師学習で一般的に使用されるツイン構造ネットワークの入力空間で画像融合を実行することで、よりきめ細かい特徴表現を学習する方法を探りたいと考えています。コアコンテンツでは、データサンプリングを設計し、画像融合後の新しい入力空間に一致する対応する損失関数を構築する方法について説明します

下の図に示すように、まず、画像融合に基づく自己教師学習でより細かい距離測定を実現するメカニズムを説明します。

左の例は、一般的に使用されるツイン自己教師ネットワーク構造の動作原理を示しています。2 つのブランチ間の距離がデフォルトの距離メトリックです。たとえば、InfoNCE は、入力画像ペアが正か負かを分類するために使用されます。

右側は、本論​​文Un-Mixで提案されている研究アイデアです。これは、1つのブランチで画像融合を実行し、最終的な距離メトリックが[0,1]間のソフト化係数の倍数になるようにすることで、2つのブランチ間の距離をより微妙で敏感にし(本研究は、自己教師あり双子モデルにソフト距離の概念を導入した最初の論文です)、モデルが入力情報のよりきめ細かい潜在空間表現を学習できるようにするというものです。

実装戦略

このメカニズムを便利かつ簡単に実装するにはどうすればよいでしょうか?この記事の著者は、次の戦略を提案しています。ミニバッチ内で特定の順序でサンプルを融合することにより、次の図に示すように、固定の距離メトリックが得られます。

具体的には、ミニバッチ内のサンプルの順序を逆にしてから、元のサンプルとの重み付け融合を実行します。2 つの元の画像間の距離はそれぞれ λ と 1-λ になります。したがって、サンプル セットのバッチ間の意味距離行列は次のようになります。

この新しい距離メトリックを使用して、次のように新しい損失関数を使用してモデルをトレーニングできます。

以下は、Un-Mix アルゴリズムの実装の疑似コードです。

実験結果

著者らは複数のデータセットに対して広範な実験を行った。

まず、ImageNet以外のデータセットでのトレーニング曲線とテスト曲線を示します

興味深い現象が見つかりました。Un-Mix を追加した後、トレーニング損失値は非常に不安定になり、大きく変動します。これは、入力空間での画像融合操作後、2 つのブランチの距離測定がより微妙で多様かつ敏感になるためです。ただし、これはモデルの一般化能力に役立ち、モデルテストを行う際に優れたテスト パフォーマンスを実現できます。

具体的な数値結果は以下のように比較されます。異なるデータセットと制御方法では結果が大幅に改善されていることがわかります。

次はImageNet の結果です。この記事で提案された方法は、200 エポックと 800 エポックという 2 つの異なるトレーニング パラメータ設定で比較的安定した改善が見られます。

最後に、下流タスクのターゲット検出の移行結果は、この方法が依然として安定した改善を行っていることを示しています

さらに、著者はメモリバンクを含むフレームワークの扱い方や、マルチスケールトレーニングの実行方法についても説明しました (上の図 11 を参照)。興味のある学生は、元の論文を読むことができます。

<<:  Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

>>:  人工知能を活用してビジネスを成長させ、企業価値を創造する方法

ブログ    
ブログ    
ブログ    

推薦する

Githubには13,000個のスターがある。JAXの急速な発展はTensorFlowやPyTorchに匹敵する

[[416349]]機械学習の分野では、TensorFlow と PyTorch は誰もがよく知っ...

ImageNetに匹敵するこのデータセットは、MITによって腹立たしい理由で緊急に削除されました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

分析とAIがIoTの成長を牽引

「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...

Jetson - Nano Opencv の基本的な使用方法

序文:前回のJetson Nanoの記事では、学習のためのアイデアや教材を紹介しました。今日は、引き...

[ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

データと製品を組み合わせるトピック 1 は、データと製品の組み合わせです。Stitch Fix を例...

AIを活用して、ナスダックは金融業界向けのSaaSプロバイダーに変革したいと考えている

ナスダックがAIGCに対して強気であることは疑いの余地がない。 Nasdaq の CIO 兼 CTO...

再帰アルゴリズム: 不可解なスイッチ「ライトを引く」

[[411620]]タイトル出典:AcWing[1]。トピック「Pull the Light」とい...

AI を活用したスマートビルの構築: これはまだ始まりに過ぎない

[[381380]]人工知能 (AI) はスマートビル管理の究極の未来と考えられていますが、それが定...

2021年にAIスマートカメラがもたらす新たな市場

[[393303]] 2020年から2021年にかけて、ほぼすべてのビジネス分野の組織が多くの予期せ...

インテリジェントオートメーション: コンピュータビジョン、AI、ARが統合されるとき

インテリジェント オートメーションは、業界がまだビジネスに統合していない、かなり新しい概念です。この...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

ディープラーニングフレームワークを使わずにPythonでニューラルネットワークをゼロから構築する方法

動機: ディープラーニングをより深く理解するために、Tensorflow などのディープラーニング ...

認知システムが機械学習とセマンティック技術を組み合わせるべき理由

ワインとチーズの組み合わせを識別するのに役立つアプリケーションを構築したいとします。最も優れたパフォ...

速報、劉強東が核爆弾を投げる!宅配便は早く消えます!

本当に信じられません、この時代の変化のスピードは想像を絶します!革新!革新!再びイノベーション!次か...