これは、カーネギーメロン大学とカリフォルニア大学バークレー校の Eric Xing 氏と Trevor Darrell 氏のチームが共同で作成した論文で、自己教師付き双子構造での画像混合を通じて、よりきめ細かい特徴表現を学習する方法を探求しており、AAAI 2022 に選ばれました。
この記事の核となるアイデアは非常に直感的で理解しやすいものです。自己教師学習で一般的に使用されるツイン構造ネットワークの入力空間で画像融合を実行することで、よりきめ細かい特徴表現を学習する方法を探りたいと考えています。コアコンテンツでは、データサンプリングを設計し、画像融合後の新しい入力空間に一致する対応する損失関数を構築する方法について説明します。 下の図に示すように、まず、画像融合に基づく自己教師学習でより細かい距離測定を実現するメカニズムを説明します。 左の例は、一般的に使用されるツイン自己教師ネットワーク構造の動作原理を示しています。2 つのブランチ間の距離がデフォルトの距離メトリックです。たとえば、InfoNCE は、入力画像ペアが正か負かを分類するために使用されます。 右側は、本論文Un-Mixで提案されている研究アイデアです。これは、1つのブランチで画像融合を実行し、最終的な距離メトリックが[0,1]間のソフト化係数の倍数になるようにすることで、2つのブランチ間の距離をより微妙で敏感にし(本研究は、自己教師あり双子モデルにソフト距離の概念を導入した最初の論文です)、モデルが入力情報のよりきめ細かい潜在空間表現を学習できるようにするというものです。 実装戦略 このメカニズムを便利かつ簡単に実装するにはどうすればよいでしょうか?この記事の著者は、次の戦略を提案しています。ミニバッチ内で特定の順序でサンプルを融合することにより、次の図に示すように、固定の距離メトリックが得られます。 具体的には、ミニバッチ内のサンプルの順序を逆にしてから、元のサンプルとの重み付け融合を実行します。2 つの元の画像間の距離はそれぞれ λ と 1-λ になります。したがって、サンプル セットのバッチ間の意味距離行列は次のようになります。 この新しい距離メトリックを使用して、次のように新しい損失関数を使用してモデルをトレーニングできます。 以下は、Un-Mix アルゴリズムの実装の疑似コードです。 実験結果 著者らは複数のデータセットに対して広範な実験を行った。 まず、ImageNet以外のデータセットでのトレーニング曲線とテスト曲線を示します。 興味深い現象が見つかりました。Un-Mix を追加した後、トレーニング損失値は非常に不安定になり、大きく変動します。これは、入力空間での画像融合操作後、2 つのブランチの距離測定がより微妙で多様かつ敏感になるためです。ただし、これはモデルの一般化能力に役立ち、モデルテストを行う際に優れたテスト パフォーマンスを実現できます。 具体的な数値結果は以下のように比較されます。異なるデータセットと制御方法では結果が大幅に改善されていることがわかります。 次はImageNet の結果です。この記事で提案された方法は、200 エポックと 800 エポックという 2 つの異なるトレーニング パラメータ設定で比較的安定した改善が見られます。 最後に、下流タスクのターゲット検出の移行結果は、この方法が依然として安定した改善を行っていることを示しています。 さらに、著者はメモリバンクを含むフレームワークの扱い方や、マルチスケールトレーニングの実行方法についても説明しました (上の図 11 を参照)。興味のある学生は、元の論文を読むことができます。 |
<<: Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。
>>: 人工知能を活用してビジネスを成長させ、企業価値を創造する方法
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[[254687]]少し前に同時通訳者がiFlytekを「AI同時通訳詐欺」と非難し、ネット上で騒...
ソーシャル ネットワークは私たちの生活にますます大きな影響を与えており、情報の普及、新しいテクノロジ...
今日、チャットボットは、顧客サービスの向上、業務の効率化、そしてより効果的な顧客との関わりを求める企...
人工知能が詩と連句を作曲、神経医学人工知能研究の最新の進歩、人工知能交通融合認識とデジタルツインソリ...
翻訳者 |ブガッティレビュー | Chonglou先週、 OpenAIチームは、物理世界の基本的な側...
AIGC のテキストからオーディオ (または音楽) を生成するトラックにおいて、Meta は最近新...
モノのインターネット (IoT) センサーは主に運用スタックの可視性を提供し、リアルタイムで正確な運...
この記事では、Alipay アプリのディープラーニング エンジンである xNN を紹介します。 xN...
[[415656]]謎のツイートにより、テスラが再び人気急上昇中だ。昨日、@Dennis Hong ...
個人ユーザー向けの Microsoft Copilot メンバーシップ バージョンはここにあります。...
「Python を学ぶ大きな楽しみの 1 つは、人工知能を学ぶことです。Lao K が GitHub...