MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルをトレーニングしているときに、次のような「気まずい」瞬間に遭遇したことはありませんか。

ようやく必要なデータセットを見つけましたが、それをクリックすると、サンプルのほとんどが同じタイプのオブジェクトであることがわかりました。 (たとえば、データセットのラベルは「動物」で、サンプルの 80% は「猫」です)

上記のデータセットでトレーニングされた動物検出モデルは、「猫」しか認識できない可能性があります。

この種のデータの不均衡 (1 つのラベルのラベルが多すぎる一方で、他のラベルのラベルが少なすぎる) は、機械学習では「ロングテール問題」と呼ばれます。

この問題により、データセット内のサンプル数が少ないオブジェクト (特に大規模なデータセット) の一般化効果は非常に悪くなります。

△長いしっぽのように

しかし、実際には、データセットには共通のカテゴリと共通でないカテゴリがほぼ必ず存在し、その中で共通でないカテゴリが識別する必要のあるターゲットになることがよくあります。

たとえば、自動運転認識モデルでは、AI が事前に起こりうる違反を予測し、適時に防止する必要があります。

ただし、自動運転データセット内のすべてのシーンが事故や違反であるということはあり得ません(ほとんどのシーンは依然として安全です)。

では、これらの「不均衡な」データセットは本当に使用できないのでしょうか?

MITの2人の博士課程の学生、Yang Yuzhe氏とZhi Xu氏が新しい解決策を考案し、その研究結果がNeurIPS 2020カンファレンスで発表されました。

見てみましょう。

既存のソリューション

実際、研究者たちは「不均衡な」データセットの問題を解決するためにさまざまな方法を試してきました。

主流のアルゴリズムだけでも、次の 7 つのカテゴリに分類されます。

再サンプリング: 少数のサンプルのオーバーサンプリングと多数のサンプルのアンダーサンプリングに分けられますが、どちらの方法にも欠点があります。その中で、オーバーサンプリングは少数のサンプルの過剰適合を引き起こしやすく、より堅牢で一般化しやすい特徴を学習することができず、不均衡なデータではパフォーマンスが低下します。一方、アンダーサンプリングは複数のサンプルで重大な情報損失を引き起こし、アンダーフィッティングにつながります。

データ合成: いくつかのサンプルに類似した新しいデータを生成します。 SMOTE メソッドを例にとると、選択された少数サンプルに対して、K 個の最近傍を使用して類似サンプルを選択し、サンプルの線形補間によって新しいサンプルを取得します。これはミックスアップ方式に似ているため、アンバランスなミックスアップバージョンも存在します。

再重み付け: 異なるクラス (または異なるサンプル) に異なる重みを割り当てます。その中で、重量は適応可能です。この方法には、カテゴリ数の逆数の重み付け、有効なサンプル数の重み付け、最良の分類結果を得るためにサンプル数を最適化する際の損失の重み付けなど、さまざまなバリエーションが生まれています。

転移学習: マルチクラス サンプルと少数クラス サンプルを別々にモデル化し、学習したマルチクラス サンプルの情報/表現/知識を少数クラス サンプルに転送して使用します。

メトリック学習: 少数クラスの近くの境界/エッジをより適切にモデル化するために、より優れた埋め込みを学習したいと考えています。

メタ学習/ドメイン適応: 先頭データと末尾データを別々に処理し、それらの重み付けを変更する方法を適応的に学習するか、ドメイン適応問題として計画します。

表現と分類器の分離: 研究により、特徴学習と分類器学習を分離し、不均衡な学習を 2 段階に分割し、特徴学習段階で通常のサンプリングを実行し、分類器学習段階でバランスのとれたサンプリングを実行すると、より優れたロングテール学習結果が得られることがわかりました。これは現在、最良のロングテール分類アルゴリズムです。

ただし、サンプルが極端に不均衡な場合には、これらは適用できません。サンプル数が少ない場合、モデルのパフォーマンスの違いは避けられません。

鍵となるのは、ここでの「不均衡」をどう理解するかということでしょうか?

「アンバランス」というレッテルの本質的な価値

本質的に不均衡なデータ ラベルの値はありますか?

研究では、これらの不均衡なデータラベルは「諸刃の剣」のようなものだということがわかった。

一方で、これらのラベルは非常に貴重な監督情報を提供します。

教師あり学習は、不均衡でラベルがすべて「正の値」を持つ場合でも、特定のタスクでは教師なし学習よりも正確であることがよくあります。

一方、ラベルの不均衡により、トレーニング中にモデルにラベルバイアスが課され、決定領域でメインカテゴリが大きく影響を受けることになります。

研究者たちは、ラベルのバランスが取れていなくても、その価値を十分に活用してモデル分類の精度を大幅に向上させることができると考えています。

まず「ラベル情報を破棄」し、自己教師あり事前トレーニングを通じてモデルが適切な開始表現を学習できるようにすれば、分類精度を効果的に向上できるでしょうか?

半教師あり事前学習から自己教師あり事前学習へ

著者らは最初に半教師あり不均衡学習を実験した。

実験により、ラベルなしデータを使用した半教師あり学習により分類結果が大幅に改善されることが示されました。

図からわかるように、ラベルのないデータは、より明確なクラス境界をモデル化し、クラス間の分離を促進するのに役立ちます。

これは、末尾クラスのサンプルが配置されている領域のデータ密度が低いためです。学習プロセス中に、モデルは低密度領域をうまくモデル化できず、一般化が不十分になります。

ラベルのないデータを使用すると、低密度領域のサンプル サイズを効果的に増やすことができ、モデルが境界をより適切にモデル化できるようになります。

ただし、半教師あり学習の使用が難しい極端なケースでは、依然として自己教師あり学習が必要になります。

これは、自己監督によって適切な初期化が生成されると、ネットワークは事前トレーニング タスクの恩恵を受け、より一般的な表現を学習できるためです。

[[376121]]

実験もこの点を証明しています。

通常の事前トレーニングの決定境界はヘッドクラスのサンプルによって大きく変更され、テールクラスのサンプルの「漏れ」が大量に発生し、一般化がうまくいかなくなります。

自己教師あり事前トレーニングを使用すると、学習したサンプルは明確な分離効果を維持し、テールクラスサンプルの漏洩を減らすことができます。

つまり、自己教師を用いてラベルバイアスを克服するためには、ロングテール学習の第一段階で、ラベル情報を放棄し、自己教師による事前学習を行う必要があるのです。

この段階の後は、任意の標準的なトレーニング方法を使用して最終モデルをトレーニングできます。 (例えば、以前に使用された転移学習、再重み付け、ドメイン適応など)

この方法により、ロングテールの問題をより適切に解決できます。

著者について

論文の筆頭著者であるヤン・ユジェ氏は現在、MITでコンピューターサイエンスの博士課程3年生であり、北京大学で学士号を取得している。

[[376122]]

現在、Yang Yuzhe は、ヘルスケア分野への応用を目的とした学習ベースのワイヤレス センシング技術と、機械学習と強化学習の堅牢性に主に焦点を当てた機械学習という 2 つの主要な研究分野に取り組んでいます。

論文の2番目の著者であるZhi Xuは、イリノイ大学アーバナ・シャンペーン校を卒業し、学士号を取得しており、MITの博士課程の学生でもあります。彼の研究対象は、機械学習の理論と最新のアプリケーションです。現在は、強化学習の安定性、効率性、構造、複雑性に焦点を当てています。

[[376123]]

論文の宛先:

出典: http://arxiv.org/abs/2006.07529

プロジェクトアドレス:

https://github.com/YyzHarry/imbalanced-semi-self

論文の解釈@Yang Yuzhe:

https://zhuanlan.zhihu.com/p/259710601

<<:  PyTorch「錬金術」の速度を向上させるにはどうすればいいですか?この人は直接変更できる17の方法をまとめました

>>:  人工知能の知られざる12の秘密

ブログ    
ブログ    

推薦する

ハーバード大学の研究によると、GPT-4は一部の企業従業員のパフォーマンスを40%向上させることができるという。

9月26日のニュースによると、OpenAIのChatGPTが発売されて以来、企業の経営者や従業員は...

...

...

ロボットは感染症の蔓延を抑制するためにどのように役立つのでしょうか?

COVID-19の時代において、ロボット工学とテクノロジーは協力して伝染性ウイルスの拡散を防いでい...

...

2020年のサイバーセキュリティの転換点: 人工知能

先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実用性を効果的に維持しな...

ディープラーニングのメリットが終わりを迎える中、AIは再び「死の谷」に直面しているのでしょうか?

[[384224]]大いに期待されているディープラーニングは、人工知能を再び AI の冬に突入させ...

5分で初めてのPythonチャットボットを構築

序文人工知能の時代において、チャットボットはますます人気が高まっています。これは、人間とコンピュータ...

SafetyNet: 自動運転における機械学習戦略のための安全な計画アプローチ

[[427712]] 2021年9月28日にarXivにアップロードされた論文「SafetyNet:...

タオバオライブストリーミングトラフィックと供給間のエンドツーエンドの連携の調査

1. タオバオライブの体系的な制御機能の進化現在、Taobao Live の推奨アルゴリズムの焦点は...

2020年の中国の人工知能開発の見通し

人工知能の今後の発展の見通し。中国の人工知能研究は爆発的な成長期にあり、人工知能産業の基礎条件は整っ...

Alimama は曲率空間学習フレームワークと連合学習ソリューションをオープンソース化し、共通の進歩のために AI 技術を一般に公開します。

9月15日、Alimamaは、曲率空間学習フレームワークと連合学習ソリューションという2つのAI技...

InnoDB ストレージ エンジンの 3 つの行ロック アルゴリズムの図解と例の分析

[[415025]]この記事はWeChatの公開アカウント「Flying Veal」から転載したもの...