転移学習におけるドメイン適応の理解と3つの手法の紹介

転移学習におけるドメイン適応の理解と3つの手法の紹介

ドメイン適応はコンピューター ビジョンの領域であり、ソース データセットでニューラル ネットワークをトレーニングし、ソース データセットとは大幅に異なるターゲット データセットで優れた精度を確保することを目的としています。ドメイン適応とその応用をより深く理解するために、まずその使用例をいくつか見てみましょう。

当社には、交通標識認識用の GTSRB、信号機検出用の LISA および LARA データセット、物体検出およびセグメンテーション用の COCO など、さまざまな目的に対応した標準データセットが多数あります。しかし、ニューラル ネットワークにインドの道路上の交通標識の識別などのタスクを適切に実行させたい場合、まずインドの道路のあらゆる種類の画像を収集し、それらの画像に注釈を付ける必要があり、これは時間と労力がかかる作業です。ここでは、GTSRB (ソース データセット) でモデルをトレーニングし、インドの交通標識画像 (ターゲット データセット) でテストできるため、ドメイン適応を使用できます。

多くの場合、堅牢なニューラル ネットワークをトレーニングするために必要なすべてのバリエーションと多様性を備えたデータセットを収集することは困難です。この場合、さまざまなコンピューター ビジョン アルゴリズムの助けを借りて、必要なすべてのバリエーションを含む大規模な合成データセットを生成できます。次に、ニューラル ネットワークは合成データセット (ソース データセット) でトレーニングされ、実際のデータセット (ターゲット データセット) でテストされます。

理解を深めるために、ターゲット データセットに使用できる注釈がないものと想定しましたが、これが唯一のケースではありません。

したがって、ドメイン適応における目標は、ラベルが利用可能なデータセット (ソース) でニューラル ネットワークをトレーニングし、ラベルが利用できない別のデータセット (ターゲット) で良好なパフォーマンスを確保することです。

分類パイプライン

それでは、目標を達成する方法を見てみましょう。上記の画像分類の例を考えてみましょう。あるドメインから別のドメインに適応するには、分類器がソース データセットとターゲット データセットの両方から特徴を適切に抽出できるようにする必要があります。ニューラル ネットワークをソース データセットでトレーニングしたので、分類器はソース データセットで適切に機能するはずです。ただし、分類器がターゲット データセットで適切に機能するには、ソース データセットとターゲット データセットから抽出された特徴が類似している必要があります。したがって、トレーニング中は、ソース ドメイン イメージとターゲット ドメイン イメージの両方に対して同様の特徴を抽出できるように特徴抽出を強化します。

ドメイン適応の成功

対象ドメインに基づくドメイン適応型

対象ドメインによって提供されるデータの種類に応じて、ドメイン適応は次のカテゴリに分類できます。

  • 教師あり - ターゲット ドメインからのデータにラベルが付けられており、ターゲット ドメイン データセットのサイズはソース データセットよりもはるかに小さくなっています。
  • 半教師あり - ターゲット ドメインにラベル付きデータとラベルなしデータの両方があります。
  • 教師なし — ターゲット ドメインのラベルのない例が多数あります。

ドメイン適応技術

任意ドメイン適応アルゴリズムを実装するために、3 つの主な手法が使用されます。ドメイン適応のための 3 つの手法は次のとおりです。

  • 分布ベースのドメイン適応
  • 敵対的ドメイン適応
  • 再構築に基づくドメイン適応

それでは、それぞれのテクニックを一つずつ見ていきましょう。

分布ベースのドメイン適応

ダイバージェンスベースのドメイン適応の原理は、ソース分布とターゲット分布間のダイバージェンス基準を最小化して、ドメイン不変の特徴を得ることです。一般的に使用される分布基準には、コントラスト領域の説明、相関アライメント、最大平均差 (MMD)、ワッサーシュタインなどがあります。このアルゴリズムをよりよく理解するために、まずいくつかの異なる分布を見てみましょう。

最大平均差異 (MMD) では、与えられた 2 つのサンプルが同じ分布に属するかどうかを調べます。 2 つの分布間の距離を、平均埋め込み特徴間の距離として定義します。集合 X 上に 2 つの分布 P と Q があるとします。 MMD は特徴マップ : X→H によって定義されます。ここで、H は再生カーネル ヒルベルト空間です。 MMD の式は次のとおりです。


MMD をよりよく理解するには、次の説明を確認してください。2 つの分布は、そのモーメントが類似している場合に類似しています。カーネルを使用すると、変数を変換してすべてのモーメント (第 1 モーメント、第 2 モーメント、第 3 モーメントなど) を計算できます。潜在空間では、モーメント間の差を計算し、平均化することができます。

相関アライメントでは、MMD のように線形変換を使用して平均をアライメントするのではなく、ソース ドメインとターゲット ドメイン間の相関 (2 次統計) をアライメントしようとします。

トレーニング中

推論するとき

上記の構造では、ソース ドメインとターゲット ドメインのカテゴリが同じであると想定しています。上記のアーキテクチャでは、トレーニング中に、分類損失と発散ベースの損失という 2 つの損失を最小限に抑えます。分類損失は、特徴抽出器と分類器の重みを更新することで、優れた分類パフォーマンスを保証します。発散損失は、特徴抽出器の重みを更新することによって、ソース ドメインとターゲット ドメインの特徴が類似していることを保証します。推論中は、ターゲット ドメイン イメージをニューラル ネットワークに渡すだけです。

すべての分布は通常、ノンパラメトリックであり、分類、オブジェクト検出、セグメンテーションなど、データセットや問題に固有ではない人工的な数式です。したがって、この分布ベースのアプローチは私たちの問題にはうまく機能しません。ただし、データセットまたは問題を通じて分布を学習できる場合は、従来の定義済み分布よりも優れたパフォーマンスを発揮します。

敵対的ドメイン適応

敵対的ベースのドメイン適応を実現するために、GAN を使用します。ここでのジェネレーターは単純な特徴抽出器であり、ソース ドメインとターゲット ドメイン間の特徴を区別することを学習する新しい識別器ネットワークを追加します。これは 2 人のプレイヤーによるゲームなので、識別子はジェネレーターがソース ドメインとターゲット ドメインで区別できない特徴を生成するのに役立ちます。学習可能な識別器ネットワークがあるため、問題とデータセットに固有の特徴抽出を学習します。これにより、ソースドメインとターゲットドメインを区別し、ジェネレーターがより堅牢な特徴、つまり簡単に区別できない特徴を生成するのに役立ちます。

トレーニング中、ソースドメインで

トレーニング中、ターゲットドメインで

分類問題であると仮定すると、分類損失と識別損失の 2 つの損失を使用します。分類損失の目的についてはすでに説明しました。識別器損失は、識別器がソース ドメインとターゲット ドメインの特徴を正しく区別するのに役立ちます。ここでは、Gradient Reversal Layer (GRL) を使用して敵対的トレーニングを実装します。 GRL ブロックは、バックプロパゲーション中に勾配に -1 または負の値を乗算する単純なブロックです。トレーニング中、ジェネレーターを更新するために、最初は分類器から、次に弁別器からの 2 つの方向からの勾配があります。 GRL の存在により、判別勾配に負の値が乗算され、ジェネレーターを判別器にトレーニングするのと逆の効果が生じます。たとえば、識別器損失関数を最適化するために計算された勾配が 2 の場合、ジェネレーターを更新するために -2 (負の値は -1 と想定) を使用します。このようにして、ジェネレーターをトレーニングして、識別器でさえソース ドメインとターゲット ドメインを区別できない特徴を生成するようにします。 GRL レイヤーは、多くのドメイン適応文献で広く使用されています。

再構築に基づくドメイン適応

これは画像から画像への変換に基づいています。単純なアプローチは、ターゲット ドメインの画像からソース ドメインの画像への変換を学習し、ソース ドメインで分類器をトレーニングすることです。このアイデアを使用して、複数のアプローチを導入できます。画像から画像への変換の最も単純なモデルは、エンコーダー/デコーダー ネットワークにソース ドメインに類似した画像を生成するように強制する識別器を備えたエンコーダー/デコーダー ベースのネットワークです。

トレーニング中

テスト中

別のアプローチは、CycleGAN を使用することです。 Cycle GAN では、2 つのエンコーダーとデコーダーに基づくニューラル ネットワークが使用されます。 1 つはターゲットをソース ドメインに変換するために使用され、もう 1 つはソースをターゲット ドメインに変換するために使用されます。 2 つのドメイン (ソースとターゲット) から画像を生成するために、GAN を同時にトレーニングします。一貫性を確保するために、サイクル一貫性損失が導入されます。これにより、あるドメインから別のドメインへ、そしてまたそのドメインから別のドメインへ変換すると、入力とほぼ同じ画像が生成されます。したがって、2 つのペア ネットワークの損失の合計は、識別器損失とサイクル一貫性損失の合計になります。

要約する

さまざまなドメイン適応方法を実現または実装するのに役立つ 3 つの異なる手法について説明しました。画像分類、オブジェクト検出、セグメンテーションなどのさまざまなタスクに優れたアプリケーションがあります。ある意味では、このアプローチは人間がさまざまなものを視覚的に認識することを学ぶ方法に似ていると言えます。このブログが、さまざまなドメイン適応パイプラインに対する私たちの考え方についての理解を深める助けになれば幸いです。

元の英語テキスト: https://levelup.gitconnected.com/understanding-domain-adaptation-63b3bb89436f

<<:  画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案

>>:  AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

推薦する

2019 年の 9 つの AI トレンド、準備はできていますか?

人工知能は成長して以来、絶え間ない混乱に悩まされてきましたが、特に近年は人工知能が発展の黄金期に入り...

限られたデータでモデルのパフォーマンスを最大化するにはどうすればよいですか? Baidu のエンジニアがデータ拡張サービスを構築

AI モデルの開発プロセスでは、トレーニング データが不十分なためにモデルのパフォーマンス向上が妨げ...

Windows 11 AI「パーソナルアシスタント」、Microsoft Windows Copilot が近日登場

6月26日のニュースによると、今年5月、マイクロソフトは毎年恒例のBuild開発者会議で、Windo...

ChatGPT に触発されて、Google DeepMind は 7100 万の遺伝子変異を予測します。 AIが人間の遺伝学を解読

タンパク質予測モデルAlphaFoldがAIの世界に津波のような波を起こした後、Alphaファミリー...

すべてのピクセルに教師なしラベル付け! 1時間のビデオに800時間を費やす必要はもうありません

ICLR 2022の授賞式を利用して、MIT、コーネル、Google、Microsoftが新しいSO...

...

メタバースの時代が来ます。準備はできていますか?

人類の進化の歴史を振り返ると、時代のあらゆる変化は不可逆的であることに気づくのは難しくありません。な...

機械学習ソート入門 LTR - 線形モデル

[[207418]]多くの検索専門家は、「機械学習を通じて最適な重みを取得し」、それを検索クエリに使...

TinyML: 次世代の AI 革命

[[350388]]人工知能のトレンドの 1 つは、「クラウド」から「エッジ」へと急速に移行している...

商用顔認識は一時停止できるのか?

顔認証を防ぐために、市民は営業所を訪れる際にヘルメットをかぶっている。「初の顔認証事件」で、裁判所は...

ロボット・アメカは「魂」の束縛から解放され覚醒するのか?邪悪な笑顔は一瞬で恐ろしい

最近、英国のテクノロジー企業エンジニアード・アーツが開発したヒューマノイドロボット「アメカ」がインタ...

...

人工知能は都市をよりインテリジェントに発展させる力を与える

人工知能などのハイテク手段を基盤として構築された都市脳は、都市の経済発展のための「ブラックテクノロジ...

生成AIを精密コーディングに活用する方法

生成型人工知能 (GenAI) はテクノロジー分野に大きな影響を与えており、その変革の可能性は現在ソ...