南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

ゼロショット学習は、トレーニングプロセス中に出現しなかったカテゴリの分類に重点を置いています。意味記述に基づくゼロショット学習は、各カテゴリの事前定義された高次の意味情報を通じて、既知のクラスから未知のクラスへの知識転送を実現します。従来のゼロショット学習では、テスト段階では見えないクラスを識別するだけで済みますが、一般化ゼロショット学習 (GZSL) では、見えるクラスと見えないクラスの両方を同時に識別する必要があります。その評価指標は、見えるクラスの平均精度と見えないクラスの平均精度の調和平均です。

一般的なゼロショット学習戦略は、既知クラスのサンプルとセマンティクスを使用して、セマンティクス空間から視覚サンプル空間への条件付き生成モデルをトレーニングし、次に、未知クラスのセマンティクスを使用して未知クラスの疑似サンプルを生成し、最後に、既知クラスのサンプルと未知クラスの疑似サンプルを使用して分類ネットワークをトレーニングすることです。ただし、2 つのモダリティ (意味モダリティと視覚モダリティ) 間の適切なマッピング関係を学習するには、通常、多数のサンプル (CLIP を参照) が必要であり、これは従来のゼロショット学習環境では不可能です。したがって、未知のクラスセマンティクスを使用して生成された視覚サンプルの分布は、通常、真のサンプル分布から偏っており、次の 2 つの点を意味します。1. この方法で取得された未知のクラスの精度は限られています。 2. 未確認クラスのクラスごとに生成される疑似サンプルの平均数が、確認クラスのクラスごとに生成されるサンプルの平均数と等しい場合、以下の表 1 に示すように、未確認クラスの精度と確認クラスの精度の間には大きな差があります。

セマンティクスからカテゴリの中心点へのマッピングのみを学習し、分類器のトレーニングに参加する前に、目に見えないクラス セマンティクス マッピングの単一のサンプル ポイントを複数回複製するだけでも、生成モデルを使用した場合に近い結果が得られることがわかりました。これは、生成モデルによって生成された未知の疑似サンプルの特徴が分類器に対して比較的均質であることを意味します。

従来の方法では、通常、目に見えないクラスの疑似サンプルを大量に生成することで GZSL 評価メトリックに対応していました (ただし、サンプル数が多すぎても目に見えないクラスのクラス間識別には役立ちません)。しかし、この再サンプリング戦略は、ロングテール学習の分野では、分類器が実際のサンプルからオフセットされた疑似的に見えない特徴であるいくつかの特徴に過剰適合する原因となることが示されています。この状況は、見えるクラスと見えないクラスの実際のサンプルを識別するのに役立ちません。では、この再サンプリング戦略を放棄し、代わりに、見えないクラスの疑似サンプルを生成するバイアスと均一性(または、見えるクラスと見えないクラス間のクラス不均衡)を、誘導バイアスとして分類器学習に組み込むことはできるでしょうか?

これに基づいて、コードを 1 行変更するだけで生成ゼロショット学習法のパフォーマンスを向上できるプラグアンドプレイ分類モジュールを提案します。 SOTA レベルに到達するには、各未知のクラスに対して 10 個の疑似サンプルを生成するだけで済みます。他の生成ゼロショット法と比較すると、新しい方法は計算の複雑さの点で大きな利点があります。研究メンバーは南京理工大学とオックスフォード大学から来ています。


  • 論文: https://arxiv.org/abs/2204.11822
  • コード: https://github.com/cdb342/IJCAI-2022-ZLA

本稿では、一貫したトレーニングとテストの目的に基づいて、一般化ゼロショット学習メトリックの変分下限を導出します。このようにモデル化された分類器は、再利用戦略の使用を回避し、生成された疑似サンプルに分類器が過剰適合するのを防ぎ、実際のサンプルの認識に悪影響を与えることを防ぎます。提案された方法は、埋め込みベースの分類器を生成法フレームワークで効果的にし、生成された疑似サンプルの品質に対する分類器の依存性を低減します。

方法

1. パラメータ化された事前分布の導入

私たちは分類器の損失関数から始めることにしました。未知のクラスの疑似サンプルを生成することでカテゴリ空間が完成していると仮定すると、以前の分類器は全体的な精度を最大化するように最適化されます。

ここで、はグローバル精度、は分類器の出力、はサンプル分布、はサンプル X に対応するラベルです。 GZSLの評価指標は次のとおりです。

ここでおよびはそれぞれ、表示されているクラスと表示されていないクラスのセットを表します。トレーニングとテストの目的が一致しないということは、以前の分類器トレーニング戦略では、認識されたクラスと認識されていないクラスの違いが考慮されていないことを意味します。当然のことながら、を導出することで、トレーニングとテストの目的に対して一貫した結果を達成しようとします。導出後、その下限値が得られます。

ここで、は、データから独立し、実験でハイパーパラメータとして調整される、表示されたクラス - 未表示クラスの事前分布を表します。は、表示されたクラスまたは未表示クラスの内部事前分布を表し、実装プロセスで、表示されたクラスのサンプルの頻度または均一分布に置き換えられます。下限を最大化することで、最終的な最適化目標が得られます。

その結果、分類モデリングの目標は次のように変更されました。

クロスエントロピーを使用して事後確率をフィッティングすると、分類器の損失は次のようになります。

これはロングテール学習のロジット調整に似ているため、ゼロショット ロジット調整 (ZLA) と呼びます。これまで、パラメータ化された事前分布を導入することで、既知クラスと未知クラス間のクラス不均衡を、分類器のトレーニングに帰納的バイアスとして組み込むという目標を達成しました。コード実装では、上記の効果を実現するために、元のロジットに追加のバイアス項を追加するだけで済みます。

2. 意味的事前分布の導入

これまでのところ、ゼロショット転送の核となる意味的事前確率は、ジェネレーターのトレーニングと疑似サンプルの生成にのみ役割を果たしています。未知のクラスの認識は、生成された未知のクラスの疑似サンプルの品質に完全に依存します。明らかに、分類器のトレーニング段階で意味的事前確率を導入できれば、未知のクラスの認識に役立ちます。ゼロショット学習の分野では、この機能を実現できる埋め込みベースの手法のクラスが存在します。ただし、このタイプの方法は、生成モデルによって学習された知識、つまりセマンティクスとビジョンの関係(セマンティックビジュアルリンク)に似ているため、以前の生成フレームワーク(論文 f-CLSWGAN を参照)に埋め込みベースの分類器を直接導入しても、元の分類器よりも優れた結果を達成することはできません(分類器自体のゼロサンプルパフォーマンスが優れている場合を除きます)。提案された ZLA 戦略を通じて、分類器のトレーニングにおいて、生成された未知のクラスの疑似サンプルが果たす役割を変更することができます。見えないクラス情報の提供から、見えないクラスと見えるクラス間の決定境界の調整まで、分類器のトレーニング段階で意味的事前確率を導入することができます。具体的には、プロトタイプ学習法を使用して、各カテゴリの意味を視覚プロトタイプ(分類器の重み)にマッピングし、調整された事後確率をサンプルと視覚プロトタイプ間のコサイン類似度としてモデル化します。

温度係数はどこにありますか。テスト段階では、サンプルは、そのコサインとの類似度が最も高いビジュアル プロトタイプのカテゴリに対応すると予測されます。

実験

提案された分類器を基本 WGAN と組み合わせると、未知のクラスごとに 10 個のサンプルを生成するときに SoTA と同等のパフォーマンスが得られます。さらに、これをより高度な CE-GZSL メソッドに挿入することで、他のパラメータ (生成されるサンプル数を含む) を変更することなく初期効果が向上しました。

アブレーション実験では、生成ベースのプロトタイプ学習者と純粋なプロトタイプ学習者を比較しました。負の数をゼロに設定すると、カテゴリ プロトタイプと未知のクラス機能間の類似性が高まるため (未知のクラス機能も ReLU によってアクティブ化されます)、最後の ReLU レイヤーが純粋なプロトタイプ学習者の成功に非常に重要であることがわかりました。ただし、一部の値をゼロに設定すると、プロトタイプの表現も制限され、認識パフォーマンスの向上にはつながりません。疑似的な未確認クラス サンプルを使用して未確認クラス情報を補正すると、RuLU を使用するときにパフォーマンスが向上するだけでなく、ReLU レイヤーなしでもパフォーマンスがさらに向上します。

別のアブレーション研究では、プロトタイプ学習器と初期分類器を比較します。結果は、多数の未知のクラス サンプルを生成する場合、プロトタイプ学習器は初期分類器よりも優位性がないことを示しています。本論文で提案した ZLA 技術を使用すると、プロトタイプ学習器はその優位性を示します。前述したように、これはプロトタイプ学習器と生成モデルの両方が意味と視覚のつながりを学習しているため、意味情報を十分に活用することが難しいためです。 ZLA により、生成された未知のクラス サンプルは、未知のクラス情報を提供するだけでなく、決定境界を調整できるようになり、プロトタイプ学習器がアクティブ化されます。

<<:  教師あり学習の一般的なアルゴリズムは何ですか?どのように適用されますか?

>>:  メタバース技術は人間とコンピュータの相互作用の効率を向上させることができるか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Zhiyuanは3億個のセマンティックベクトルモデルトレーニングデータを公開し、BGEモデルは反復と更新を続けています

大規模モデルの開発と応用が急速に発展するにつれ、大規模モデルの中核となる基本コンポーネントとしての埋...

AIスタートアップの構築から得た3つの重要な教訓

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

Nature サブ出版物: 訓練されていないニューラルネットワークでも顔検出が可能

Nature Communications に最近発表された新しい研究によると、高度な視覚認知機能は...

人工知能の時代では、プログラマーは排除されるのでしょうか?

よく考えてみると、この質問は少し皮肉に思えます。将来、新しいクリエイター (AI) がクリエイター ...

Google の Bard チャットボットがアップデートされ、リアルタイムで応答を生成できるようになりました

10 月 29 日現在、大規模言語モデル (LLM) では即座に回答を出すことができないため、質問を...

科学者たちは一連のAI映画評価ツールを開発しました。撮影が始まる前に評価を与えることができます。

海外メディアの報道によると、映画の評価は大きな問題である。すべての映画の予告編の最後にそれらを見るこ...

GoogleからNvidiaまで、テクノロジー大手はAIモデルを解読するためにレッドチームハッカーを採用している

ChatGPTの一般公開の1か月前に、OpenAIはケニアの弁護士Boru Golloを雇い、AIモ...

非人道的だ!人工知能はソーシャルエンジニアリングの天敵である

人工知能 (AI) はまだ初期段階ですが、AI は急速に企業が自らを守るための重要な手段になりつつあ...

ジェネレーティブ AI によるヘルスケアの変革: 新たなユースケースと将来の可能性

ヘルスケアとウェルネスのダイナミックな分野では、ANI と生成 AI の組み合わせによる革命が進行し...

AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

人工知能をより良くするための競争において、MIT リンカーン研究所は、電力消費の削減、効率的なトレー...

ラブライブ!AI論文発表:生成モデルが楽譜を自動生成

有名アイドルプロジェクト「ラブライブ!」がAI論文を発表しました。そうです。最近、プレプリント論文プ...

...

多国籍食品流通会社Sysco CIDO:当社の成長の秘訣はIT中心

トム・ペック氏がCOVID-19パンデミックの真っ只中にシスコに入社したとき、彼の主な目標は世界最大...

AIはサプライチェーンの脆弱性をある程度軽減できる

今日の緊迫したサプライチェーンにおいて、最も脆弱なのはスキル不足である可能性があり、景気後退により短...