ドメイン適応はコンピューター ビジョンの領域であり、ソース データセットでニューラル ネットワークをトレーニングし、ソース データセットとは大幅に異なるターゲット データセットで優れた精度を確保することを目的としています。ドメイン適応とその応用をより深く理解するために、まずその使用例をいくつか見てみましょう。 当社には、交通標識認識用の GTSRB、信号機検出用の LISA および LARA データセット、物体検出およびセグメンテーション用の COCO など、さまざまな目的に対応した標準データセットが多数あります。しかし、ニューラル ネットワークにインドの道路上の交通標識の識別などのタスクを適切に実行させたい場合、まずインドの道路のあらゆる種類の画像を収集し、それらの画像に注釈を付ける必要があり、これは時間と労力がかかる作業です。ここでは、GTSRB (ソース データセット) でモデルをトレーニングし、インドの交通標識画像 (ターゲット データセット) でテストできるため、ドメイン適応を使用できます。 多くの場合、堅牢なニューラル ネットワークをトレーニングするために必要なすべてのバリエーションと多様性を備えたデータセットを収集することは困難です。この場合、さまざまなコンピューター ビジョン アルゴリズムの助けを借りて、必要なすべてのバリエーションを含む大規模な合成データセットを生成できます。次に、ニューラル ネットワークは合成データセット (ソース データセット) でトレーニングされ、実際のデータセット (ターゲット データセット) でテストされます。 理解を深めるために、ターゲット データセットに使用できる注釈がないものと想定しましたが、これが唯一のケースではありません。 したがって、ドメイン適応における目標は、ラベルが利用可能なデータセット (ソース) でニューラル ネットワークをトレーニングし、ラベルが利用できない別のデータセット (ターゲット) で良好なパフォーマンスを確保することです。 分類パイプライン それでは、目標を達成する方法を見てみましょう。上記の画像分類の例を考えてみましょう。あるドメインから別のドメインに適応するには、分類器がソース データセットとターゲット データセットの両方から特徴を適切に抽出できるようにする必要があります。ニューラル ネットワークをソース データセットでトレーニングしたので、分類器はソース データセットで適切に機能するはずです。ただし、分類器がターゲット データセットで適切に機能するには、ソース データセットとターゲット データセットから抽出された特徴が類似している必要があります。したがって、トレーニング中は、ソース ドメイン イメージとターゲット ドメイン イメージの両方に対して同様の特徴を抽出できるように特徴抽出を強化します。 ドメイン適応の成功 対象ドメインに基づくドメイン適応型 対象ドメインによって提供されるデータの種類に応じて、ドメイン適応は次のカテゴリに分類できます。
ドメイン適応技術 任意ドメイン適応アルゴリズムを実装するために、3 つの主な手法が使用されます。ドメイン適応のための 3 つの手法は次のとおりです。
それでは、それぞれのテクニックを一つずつ見ていきましょう。 分布ベースのドメイン適応 ダイバージェンスベースのドメイン適応の原理は、ソース分布とターゲット分布間のダイバージェンス基準を最小化して、ドメイン不変の特徴を得ることです。一般的に使用される分布基準には、コントラスト領域の説明、相関アライメント、最大平均差 (MMD)、ワッサーシュタインなどがあります。このアルゴリズムをよりよく理解するために、まずいくつかの異なる分布を見てみましょう。 最大平均差異 (MMD) では、与えられた 2 つのサンプルが同じ分布に属するかどうかを調べます。 2 つの分布間の距離を、平均埋め込み特徴間の距離として定義します。集合 X 上に 2 つの分布 P と Q があるとします。 MMD は特徴マップ : X→H によって定義されます。ここで、H は再生カーネル ヒルベルト空間です。 MMD の式は次のとおりです。 MMD をよりよく理解するには、次の説明を確認してください。2 つの分布は、そのモーメントが類似している場合に類似しています。カーネルを使用すると、変数を変換してすべてのモーメント (第 1 モーメント、第 2 モーメント、第 3 モーメントなど) を計算できます。潜在空間では、モーメント間の差を計算し、平均化することができます。 相関アライメントでは、MMD のように線形変換を使用して平均をアライメントするのではなく、ソース ドメインとターゲット ドメイン間の相関 (2 次統計) をアライメントしようとします。 トレーニング中 推論するとき 上記の構造では、ソース ドメインとターゲット ドメインのカテゴリが同じであると想定しています。上記のアーキテクチャでは、トレーニング中に、分類損失と発散ベースの損失という 2 つの損失を最小限に抑えます。分類損失は、特徴抽出器と分類器の重みを更新することで、優れた分類パフォーマンスを保証します。発散損失は、特徴抽出器の重みを更新することによって、ソース ドメインとターゲット ドメインの特徴が類似していることを保証します。推論中は、ターゲット ドメイン イメージをニューラル ネットワークに渡すだけです。 すべての分布は通常、ノンパラメトリックであり、分類、オブジェクト検出、セグメンテーションなど、データセットや問題に固有ではない人工的な数式です。したがって、この分布ベースのアプローチは私たちの問題にはうまく機能しません。ただし、データセットまたは問題を通じて分布を学習できる場合は、従来の定義済み分布よりも優れたパフォーマンスを発揮します。 敵対的ドメイン適応 敵対的ベースのドメイン適応を実現するために、GAN を使用します。ここでのジェネレーターは単純な特徴抽出器であり、ソース ドメインとターゲット ドメイン間の特徴を区別することを学習する新しい識別器ネットワークを追加します。これは 2 人のプレイヤーによるゲームなので、識別子はジェネレーターがソース ドメインとターゲット ドメインで区別できない特徴を生成するのに役立ちます。学習可能な識別器ネットワークがあるため、問題とデータセットに固有の特徴抽出を学習します。これにより、ソースドメインとターゲットドメインを区別し、ジェネレーターがより堅牢な特徴、つまり簡単に区別できない特徴を生成するのに役立ちます。 トレーニング中、ソースドメインで トレーニング中、ターゲットドメインで 分類問題であると仮定すると、分類損失と識別損失の 2 つの損失を使用します。分類損失の目的についてはすでに説明しました。識別器損失は、識別器がソース ドメインとターゲット ドメインの特徴を正しく区別するのに役立ちます。ここでは、Gradient Reversal Layer (GRL) を使用して敵対的トレーニングを実装します。 GRL ブロックは、バックプロパゲーション中に勾配に -1 または負の値を乗算する単純なブロックです。トレーニング中、ジェネレーターを更新するために、最初は分類器から、次に弁別器からの 2 つの方向からの勾配があります。 GRL の存在により、判別勾配に負の値が乗算され、ジェネレーターを判別器にトレーニングするのと逆の効果が生じます。たとえば、識別器損失関数を最適化するために計算された勾配が 2 の場合、ジェネレーターを更新するために -2 (負の値は -1 と想定) を使用します。このようにして、ジェネレーターをトレーニングして、識別器でさえソース ドメインとターゲット ドメインを区別できない特徴を生成するようにします。 GRL レイヤーは、多くのドメイン適応文献で広く使用されています。 再構築に基づくドメイン適応 これは画像から画像への変換に基づいています。単純なアプローチは、ターゲット ドメインの画像からソース ドメインの画像への変換を学習し、ソース ドメインで分類器をトレーニングすることです。このアイデアを使用して、複数のアプローチを導入できます。画像から画像への変換の最も単純なモデルは、エンコーダー/デコーダー ネットワークにソース ドメインに類似した画像を生成するように強制する識別器を備えたエンコーダー/デコーダー ベースのネットワークです。 トレーニング中 テスト中 別のアプローチは、CycleGAN を使用することです。 Cycle GAN では、2 つのエンコーダーとデコーダーに基づくニューラル ネットワークが使用されます。 1 つはターゲットをソース ドメインに変換するために使用され、もう 1 つはソースをターゲット ドメインに変換するために使用されます。 2 つのドメイン (ソースとターゲット) から画像を生成するために、GAN を同時にトレーニングします。一貫性を確保するために、サイクル一貫性損失が導入されます。これにより、あるドメインから別のドメインへ、そしてまたそのドメインから別のドメインへ変換すると、入力とほぼ同じ画像が生成されます。したがって、2 つのペア ネットワークの損失の合計は、識別器損失とサイクル一貫性損失の合計になります。 要約する さまざまなドメイン適応方法を実現または実装するのに役立つ 3 つの異なる手法について説明しました。画像分類、オブジェクト検出、セグメンテーションなどのさまざまなタスクに優れたアプリケーションがあります。ある意味では、このアプローチは人間がさまざまなものを視覚的に認識することを学ぶ方法に似ていると言えます。このブログが、さまざまなドメイン適応パイプラインに対する私たちの考え方についての理解を深める助けになれば幸いです。 元の英語テキスト: https://levelup.gitconnected.com/understanding-domain-adaptation-63b3bb89436f |
<<: 画像も感情を伝えることができるのでしょうか?ロチェスター大学のチームが新しいコンピュータービジョンのタスクを提案
>>: AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている
「時期尚早な最適化は諸悪の根源である。」 —ドナルド・アーヴィン・クヌース、コンピュータ科学者、数...
人工知能とニューラルネットワークの機能はどちらもイベント処理です。たとえば、人工知能は自動文書処理を...
人工知能 (AI) は、今日のテクノロジーにおいて最も注目され、最も影響力のあるトピックの 1 つで...
ザッカーバーグ氏は新たな目標「すべてをオープンソースの AGI に」を発表しました。そう、ザッカーバ...
過去 2 年間で、生成型人工知能 (GenAI) の出現により、産業プロセス分析に刺激的な新しい可能...
リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新...
本稿では、トポロジカルデータ分析 (TDA) の基本原理を紹介し、事例を示し、この方法が視覚分析を効...
Python によるシンプルな自然言語処理この記事は、Python をベースにした簡単な自然言語処理...
6月16日のニュースによると、テスラのCEO、イーロン・マスク氏は木曜日にイタリアのメローニ首相と会...