南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

ゼロショット学習は、トレーニングプロセス中に出現しなかったカテゴリの分類に重点を置いています。意味記述に基づくゼロショット学習は、各カテゴリの事前定義された高次の意味情報を通じて、既知のクラスから未知のクラスへの知識転送を実現します。従来のゼロショット学習では、テスト段階では見えないクラスを識別するだけで済みますが、一般化ゼロショット学習 (GZSL) では、見えるクラスと見えないクラスの両方を同時に識別する必要があります。その評価指標は、見えるクラスの平均精度と見えないクラスの平均精度の調和平均です。

一般的なゼロショット学習戦略は、既知クラスのサンプルとセマンティクスを使用して、セマンティクス空間から視覚サンプル空間への条件付き生成モデルをトレーニングし、次に、未知クラスのセマンティクスを使用して未知クラスの疑似サンプルを生成し、最後に、既知クラスのサンプルと未知クラスの疑似サンプルを使用して分類ネットワークをトレーニングすることです。ただし、2 つのモダリティ (意味モダリティと視覚モダリティ) 間の適切なマッピング関係を学習するには、通常、多数のサンプル (CLIP を参照) が必要であり、これは従来のゼロショット学習環境では不可能です。したがって、未知のクラスセマンティクスを使用して生成された視覚サンプルの分布は、通常、真のサンプル分布から偏っており、次の 2 つの点を意味します。1. この方法で取得された未知のクラスの精度は限られています。 2. 未確認クラスのクラスごとに生成される疑似サンプルの平均数が、確認クラスのクラスごとに生成されるサンプルの平均数と等しい場合、以下の表 1 に示すように、未確認クラスの精度と確認クラスの精度の間には大きな差があります。

セマンティクスからカテゴリの中心点へのマッピングのみを学習し、分類器のトレーニングに参加する前に、目に見えないクラスセマンティクスマッピングの単一のサンプルポイントを複数回複製するだけでも、生成モデルを使用した場合に近い結果が得られることがわかりました。これは、生成モデルによって生成された未知の疑似サンプルの特徴が分類器に対して比較的均質であることを意味します。

従来の方法では、通常、目に見えないクラスの疑似サンプルを大量に生成することで GZSL 評価メトリックに対応していました (ただし、サンプル数が多すぎても目に見えないクラスのクラス間識別には役立ちません)。しかし、この再サンプリング戦略は、ロングテール学習の分野では、分類器が実際のサンプルからオフセットされた疑似的に見えない特徴であるいくつかの特徴に過剰適合する原因となることが示されています。この状況は、見えるクラスと見えないクラスの実際のサンプルを識別するのに役立ちません。では、この再サンプリング戦略を放棄し、代わりに、見えないクラスの疑似サンプルを生成するバイアスと均一性（または、見えるクラスと見えないクラス間のクラス不均衡）を、誘導バイアスとして分類器学習に組み込むことはできるでしょうか?

これに基づいて、コードを 1 行変更するだけで生成ゼロショット学習法のパフォーマンスを向上できるプラグアンドプレイ分類モジュールを提案します。 SOTA レベルに到達するには、各未知のクラスに対して 10 個の疑似サンプルを生成するだけで済みます。他の生成ゼロショット法と比較すると、新しい方法は計算の複雑さの点で大きな利点があります。研究メンバーは南京理工大学とオックスフォード大学から来ています。

論文: https://arxiv.org/abs/2204.11822
コード: https://github.com/cdb342/IJCAI-2022-ZLA

本稿では、一貫したトレーニングとテストの目的に基づいて、一般化ゼロショット学習メトリックの変分下限を導出します。このようにモデル化された分類器は、再利用戦略の使用を回避し、生成された疑似サンプルに分類器が過剰適合するのを防ぎ、実際のサンプルの認識に悪影響を与えることを防ぎます。提案された方法は、埋め込みベースの分類器を生成法フレームワークで効果的にし、生成された疑似サンプルの品質に対する分類器の依存性を低減します。

方法

1. パラメータ化された事前分布の導入

私たちは分類器の損失関数から始めることにしました。未知のクラスの疑似サンプルを生成することでカテゴリ空間が完成していると仮定すると、以前の分類器は全体的な精度を最大化するように最適化されます。

ここで、はグローバル精度、は分類器の出力、はサンプル分布、はサンプル X に対応するラベルです。 GZSLの評価指標は次のとおりです。

ここで、およびはそれぞれ、表示されているクラスと表示されていないクラスのセットを表します。トレーニングとテストの目的が一致しないということは、以前の分類器トレーニング戦略では、認識されたクラスと認識されていないクラスの違いが考慮されていないことを意味します。当然のことながら、を導出することで、トレーニングとテストの目的に対して一貫した結果を達成しようとします。導出後、その下限値が得られます。

ここで、は、データから独立し、実験でハイパーパラメータとして調整される、表示されたクラス - 未表示クラスの事前分布を表します。は、表示されたクラスまたは未表示クラスの内部事前分布を表し、実装プロセスで、表示されたクラスのサンプルの頻度または均一分布に置き換えられます。下限を最大化することで、最終的な最適化目標が得られます。

その結果、分類モデリングの目標は次のように変更されました。

クロスエントロピーを使用して事後確率をフィッティングすると、分類器の損失は次のようになります。

これはロングテール学習のロジット調整に似ているため、ゼロショットロジット調整 (ZLA) と呼びます。これまで、パラメータ化された事前分布を導入することで、既知クラスと未知クラス間のクラス不均衡を、分類器のトレーニングに帰納的バイアスとして組み込むという目標を達成しました。コード実装では、上記の効果を実現するために、元のロジットに追加のバイアス項を追加するだけで済みます。

2. 意味的事前分布の導入

これまでのところ、ゼロショット転送の核となる意味的事前確率は、ジェネレーターのトレーニングと疑似サンプルの生成にのみ役割を果たしています。未知のクラスの認識は、生成された未知のクラスの疑似サンプルの品質に完全に依存します。明らかに、分類器のトレーニング段階で意味的事前確率を導入できれば、未知のクラスの認識に役立ちます。ゼロショット学習の分野では、この機能を実現できる埋め込みベースの手法のクラスが存在します。ただし、このタイプの方法は、生成モデルによって学習された知識、つまりセマンティクスとビジョンの関係（セマンティックビジュアルリンク）に似ているため、以前の生成フレームワーク（論文 f-CLSWGAN を参照）に埋め込みベースの分類器を直接導入しても、元の分類器よりも優れた結果を達成することはできません（分類器自体のゼロサンプルパフォーマンスが優れている場合を除きます）。提案された ZLA 戦略を通じて、分類器のトレーニングにおいて、生成された未知のクラスの疑似サンプルが果たす役割を変更することができます。見えないクラス情報の提供から、見えないクラスと見えるクラス間の決定境界の調整まで、分類器のトレーニング段階で意味的事前確率を導入することができます。具体的には、プロトタイプ学習法を使用して、各カテゴリの意味を視覚プロトタイプ（分類器の重み）にマッピングし、調整された事後確率をサンプルと視覚プロトタイプ間のコサイン類似度としてモデル化します。

温度係数はどこにありますか。テスト段階では、サンプルは、そのコサインとの類似度が最も高いビジュアルプロトタイプのカテゴリに対応すると予測されます。

実験

提案された分類器を基本 WGAN と組み合わせると、未知のクラスごとに 10 個のサンプルを生成するときに SoTA と同等のパフォーマンスが得られます。さらに、これをより高度な CE-GZSL メソッドに挿入することで、他のパラメータ (生成されるサンプル数を含む) を変更することなく初期効果が向上しました。

アブレーション実験では、生成ベースのプロトタイプ学習者と純粋なプロトタイプ学習者を比較しました。負の数をゼロに設定すると、カテゴリプロトタイプと未知のクラス機能間の類似性が高まるため (未知のクラス機能も ReLU によってアクティブ化されます)、最後の ReLU レイヤーが純粋なプロトタイプ学習者の成功に非常に重要であることがわかりました。ただし、一部の値をゼロに設定すると、プロトタイプの表現も制限され、認識パフォーマンスの向上にはつながりません。疑似的な未確認クラスサンプルを使用して未確認クラス情報を補正すると、RuLU を使用するときにパフォーマンスが向上するだけでなく、ReLU レイヤーなしでもパフォーマンスがさらに向上します。

別のアブレーション研究では、プロトタイプ学習器と初期分類器を比較します。結果は、多数の未知のクラスサンプルを生成する場合、プロトタイプ学習器は初期分類器よりも優位性がないことを示しています。本論文で提案した ZLA 技術を使用すると、プロトタイプ学習器はその優位性を示します。前述したように、これはプロトタイプ学習器と生成モデルの両方が意味と視覚のつながりを学習しているため、意味情報を十分に活用することが難しいためです。 ZLA により、生成された未知のクラスサンプルは、未知のクラス情報を提供するだけでなく、決定境界を調整できるようになり、プロトタイプ学習器がアクティブ化されます。

<<: 教師あり学習の一般的なアルゴリズムは何ですか?どのように適用されますか?

>>: メタバース技術は人間とコンピュータの相互作用の効率を向上させることができるか?