MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルをトレーニングしているときに、次のような「気まずい」瞬間に遭遇したことはありませんか。

ようやく必要なデータセットを見つけましたが、それをクリックすると、サンプルのほとんどが同じタイプのオブジェクトであることがわかりました。 (たとえば、データセットのラベルは「動物」で、サンプルの 80% は「猫」です)

上記のデータセットでトレーニングされた動物検出モデルは、「猫」しか認識できない可能性があります。

この種のデータの不均衡 (1 つのラベルのラベルが多すぎる一方で、他のラベルのラベルが少なすぎる) は、機械学習では「ロングテール問題」と呼ばれます。

この問題により、データセット内のサンプル数が少ないオブジェクト (特に大規模なデータセット) の一般化効果は非常に悪くなります。

△長いしっぽのように

しかし、実際には、データセットには共通のカテゴリと共通でないカテゴリがほぼ必ず存在し、その中で共通でないカテゴリが識別する必要のあるターゲットになることがよくあります。

たとえば、自動運転認識モデルでは、AI が事前に起こりうる違反を予測し、適時に防止する必要があります。

ただし、自動運転データセット内のすべてのシーンが事故や違反であるということはあり得ません（ほとんどのシーンは依然として安全です）。

では、これらの「不均衡な」データセットは本当に使用できないのでしょうか?

MITの2人の博士課程の学生、Yang Yuzhe氏とZhi Xu氏が新しい解決策を考案し、その研究結果がNeurIPS 2020カンファレンスで発表されました。

見てみましょう。

既存のソリューション

実際、研究者たちは「不均衡な」データセットの問題を解決するためにさまざまな方法を試してきました。

主流のアルゴリズムだけでも、次の 7 つのカテゴリに分類されます。

再サンプリング: 少数のサンプルのオーバーサンプリングと多数のサンプルのアンダーサンプリングに分けられますが、どちらの方法にも欠点があります。その中で、オーバーサンプリングは少数のサンプルの過剰適合を引き起こしやすく、より堅牢で一般化しやすい特徴を学習することができず、不均衡なデータではパフォーマンスが低下します。一方、アンダーサンプリングは複数のサンプルで重大な情報損失を引き起こし、アンダーフィッティングにつながります。

データ合成: いくつかのサンプルに類似した新しいデータを生成します。 SMOTE メソッドを例にとると、選択された少数サンプルに対して、K 個の最近傍を使用して類似サンプルを選択し、サンプルの線形補間によって新しいサンプルを取得します。これはミックスアップ方式に似ているため、アンバランスなミックスアップバージョンも存在します。

再重み付け: 異なるクラス (または異なるサンプル) に異なる重みを割り当てます。その中で、重量は適応可能です。この方法には、カテゴリ数の逆数の重み付け、有効なサンプル数の重み付け、最良の分類結果を得るためにサンプル数を最適化する際の損失の重み付けなど、さまざまなバリエーションが生まれています。

転移学習: マルチクラスサンプルと少数クラスサンプルを別々にモデル化し、学習したマルチクラスサンプルの情報/表現/知識を少数クラスサンプルに転送して使用します。

メトリック学習: 少数クラスの近くの境界/エッジをより適切にモデル化するために、より優れた埋め込みを学習したいと考えています。

メタ学習/ドメイン適応: 先頭データと末尾データを別々に処理し、それらの重み付けを変更する方法を適応的に学習するか、ドメイン適応問題として計画します。

表現と分類器の分離: 研究により、特徴学習と分類器学習を分離し、不均衡な学習を 2 段階に分割し、特徴学習段階で通常のサンプリングを実行し、分類器学習段階でバランスのとれたサンプリングを実行すると、より優れたロングテール学習結果が得られることがわかりました。これは現在、最良のロングテール分類アルゴリズムです。

ただし、サンプルが極端に不均衡な場合には、これらは適用できません。サンプル数が少ない場合、モデルのパフォーマンスの違いは避けられません。

鍵となるのは、ここでの「不均衡」をどう理解するかということでしょうか?

「アンバランス」というレッテルの本質的な価値

本質的に不均衡なデータラベルの値はありますか?

研究では、これらの不均衡なデータラベルは「諸刃の剣」のようなものだということがわかった。

一方で、これらのラベルは非常に貴重な監督情報を提供します。

教師あり学習は、不均衡でラベルがすべて「正の値」を持つ場合でも、特定のタスクでは教師なし学習よりも正確であることがよくあります。

一方、ラベルの不均衡により、トレーニング中にモデルにラベルバイアスが課され、決定領域でメインカテゴリが大きく影響を受けることになります。

研究者たちは、ラベルのバランスが取れていなくても、その価値を十分に活用してモデル分類の精度を大幅に向上させることができると考えています。

まず「ラベル情報を破棄」し、自己教師あり事前トレーニングを通じてモデルが適切な開始表現を学習できるようにすれば、分類精度を効果的に向上できるでしょうか?

半教師あり事前学習から自己教師あり事前学習へ

著者らは最初に半教師あり不均衡学習を実験した。

実験により、ラベルなしデータを使用した半教師あり学習により分類結果が大幅に改善されることが示されました。

図からわかるように、ラベルのないデータは、より明確なクラス境界をモデル化し、クラス間の分離を促進するのに役立ちます。

これは、末尾クラスのサンプルが配置されている領域のデータ密度が低いためです。学習プロセス中に、モデルは低密度領域をうまくモデル化できず、一般化が不十分になります。

ラベルのないデータを使用すると、低密度領域のサンプルサイズを効果的に増やすことができ、モデルが境界をより適切にモデル化できるようになります。

ただし、半教師あり学習の使用が難しい極端なケースでは、依然として自己教師あり学習が必要になります。

これは、自己監督によって適切な初期化が生成されると、ネットワークは事前トレーニングタスクの恩恵を受け、より一般的な表現を学習できるためです。

[[376121]]

実験もこの点を証明しています。

通常の事前トレーニングの決定境界はヘッドクラスのサンプルによって大きく変更され、テールクラスのサンプルの「漏れ」が大量に発生し、一般化がうまくいかなくなります。

自己教師あり事前トレーニングを使用すると、学習したサンプルは明確な分離効果を維持し、テールクラスサンプルの漏洩を減らすことができます。

つまり、自己教師を用いてラベルバイアスを克服するためには、ロングテール学習の第一段階で、ラベル情報を放棄し、自己教師による事前学習を行う必要があるのです。

この段階の後は、任意の標準的なトレーニング方法を使用して最終モデルをトレーニングできます。 (例えば、以前に使用された転移学習、再重み付け、ドメイン適応など)

この方法により、ロングテールの問題をより適切に解決できます。

著者について

論文の筆頭著者であるヤン・ユジェ氏は現在、MITでコンピューターサイエンスの博士課程3年生であり、北京大学で学士号を取得している。

[[376122]]

現在、Yang Yuzhe は、ヘルスケア分野への応用を目的とした学習ベースのワイヤレスセンシング技術と、機械学習と強化学習の堅牢性に主に焦点を当てた機械学習という 2 つの主要な研究分野に取り組んでいます。

論文の2番目の著者であるZhi Xuは、イリノイ大学アーバナ・シャンペーン校を卒業し、学士号を取得しており、MITの博士課程の学生でもあります。彼の研究対象は、機械学習の理論と最新のアプリケーションです。現在は、強化学習の安定性、効率性、構造、複雑性に焦点を当てています。

[[376123]]

論文の宛先:

出典: http://arxiv.org/abs/2006.07529

プロジェクトアドレス:

https://github.com/YyzHarry/imbalanced-semi-self

論文の解釈@Yang Yuzhe:

https://zhuanlan.zhihu.com/p/259710601

<<: PyTorch「錬金術」の速度を向上させるにはどうすればいいですか?この人は直接変更できる17の方法をまとめました

>>: 人工知能の知られざる12の秘密

ブログ

2019年北京知源会議が北京で開幕、中国と海外の学術リーダーが人工知能研究の最前線について議論

MITの博士課程の学生と北京大学の卒業生が、データセットにおけるこの一般的な「難しい問題」を解決するために自己教師ありアルゴリズムを使用した。

既存のソリューション

「アンバランス」というレッテルの本質的な価値

半教師あり事前学習から自己教師あり事前学習へ

著者について

人工知能はデマですか？人工知能が日常生活にもたらす変化を感じられますか?

GPT-4Vの自動運転への応用の見通しは？現実世界のシナリオの包括的な評価はここにあります

ChatGPTの関数呼び出しはC3POとR2-D2がチームを組んだようなものだ

Adobe がインドのスタートアップ Rephrase.ai を買収、生成 AI 分野で初の買収となる

公式スタンプ！ 35の大学がAI専門建設資格の第1期生を取得

2019年北京知源会議が北京で開幕、中国と海外の学術リーダーが人工知能研究の最前線について議論

NVIDIA、端末デバイスへのディープラーニングの導入を加速する高性能Jetson TX2を発表

中国の「マインドショッピング」技術がマスク氏の脳コンピューターインターフェースに挑戦！ネットユーザー：手を切断することが斬首にエスカレート

推薦する

AIと分析がIoT収益化の鍵となる理由

北京、6つの高速道路を段階的に自動運転試験に開放、安全担当者を段階的に撤退させようとしている

2018年ニューリテール5大トレンド：無人小売が広がり続け、人工知能やIoTが新たな価値を創出

AIを活用してパイロットプロジェクトを計画する方法

2021 年のファッションラグジュアリーの美的パラダイムとは何でしょうか?答え: テクノロジー

YOLOの父は抗議を表明するためにCV業界を辞め、軍事やプライバシーのスヌーピングにAIアルゴリズムを使用することを拒否

機械学習: 密度ベースの外れ値検出アルゴリズム

Google の自動運転車は「先天的な欠陥」があるが、その商品化は「中止」の運命を免れるだろうか?

予想外！ AI技術はアダルト動画サイトに成熟して適用されている

AIがハッカーを騙すために偽の文書を作成

LinkedIn、ユーザーが夢の仕事を見つけるのを支援するAIチャットボットを導入

感情コンピューティングは人間とコンピュータの相互作用の中核となるのでしょうか?感情分析におけるディープラーニングの応用について