機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い

機械学習は私たちの世界を変える素晴らしいツールです。機械（特にディープラーニング）が従来の方法よりも優れていることが証明されている優れたアプリケーションは数多くあります。画像分類用の Alex-Net から画像セグメンテーション用の U-Net まで、コンピュータービジョンと医療画像処理の分野で大きな成功を収めてきました。しかし、私は機械学習のアプローチが失敗するのを毎日見ています。こうしたケースの多くでは、人々は機械学習の 7 つの大罪の 1 つに陥っています。

これらはすべて厳しく、間違った結論に達していますが、中には他のものよりもひどいものもあり、機械学習の専門家でさえもその仕事に興奮することがあります。これらの欠点の多くは、コードと実験のセットアップを詳細に調べて見つける必要があるため、他の専門家にとっても見つけるのが困難です。特に、結果が信じられないほど良いと思われる場合は、自分の作業について誤った結論を導き出さないように、このブログ投稿をチェックリストとして使用することをお勧めします。これらの誤解に陥っていないことを絶対に確信できる場合にのみ、同僚や一般の人々に結果を報告してください。

罪1: データとモデルの誤用

これはディープラーニングの初心者がよく犯す間違いです。最も一般的なケースでは、トレーニングデータがテストデータとして使用されているなど、実験設計に欠陥があります。単純な分類器 (最近傍法など) を使用すると、ほとんどの問題ですぐに 100% の認識率が得られます。より複雑で深いモデルでは、精度は 100% ではなく、98～99% になる可能性があります。したがって、最初の写真でこのような高い認識率を達成した場合は、必ず実験設定を再確認する必要があります。ただし、新しいデータを使用すると、モデルは完全に崩壊し、ランダムな推測よりも悪い結果、つまり 1/K 未満の精度 (K はクラス数) が生成される可能性があります (たとえば、2 クラスの問題の場合は 50% 未満)。同様に、パラメータの数を増やしてトレーニングデータセットを完全に記憶することで、モデルを簡単にオーバーフィットさせることもできます。もう 1 つのバリエーションは、小さすぎてアプリケーションを代表しないトレーニングセットを使用することです。これらのモデルはすべて、新しいデータ、つまり実際のアプリケーションシナリオで使用すると機能しなくなる可能性があります。

罪2: 不公平な比較

機械学習の専門家でさえもこの罪に陥る可能性があります。このアプローチは通常、新しいアプローチが最先端のものよりも優れていることを証明したい場合に使用されます。特に研究論文では、自らの研究方法の優位性を査読者に納得させるために、この見解に屈することが多い。最も単純なケースでは、手元の問題に対して既に開発されているモデルをターゲットにして、すべてのパラメータを微調整してテストデータで最高のパフォーマンスを得るのではなく、パブリックリポジトリからモデルをダウンロードし、それを使用して微調整したり、適切なハイパーパラメータ検索を実行したりできます。文学の中にはこの悪の例が数多くあります。最近の例はIsenseeらによって明らかにされました。彼らの非 NeoNet 論文では、オリジナルの U-net が 10 の異なる問題において 2015 年以降に提案された手法のほぼすべての改良よりも優れていることが示されています。したがって、最新のモデルでは常に同じ量のパラメータ調整を実行する必要があります。

罪3: ほとんど進歩がない

すべての実験を経て、最先端のモデルよりも優れた結果を生み出すモデルをようやく見つけました。しかし、この時点でもまだ終わりではありません。機械学習におけるすべては不正確です。さらに、学習プロセスは確率的な性質を持っているため、実験は多くのランダムな要因の影響を受けます。このランダム性を考慮するには、統計テストを実行する必要があります。これは通常、異なるランダムシードを使用して実験を複数回実行することによって実行されます。この方法では、すべての実験にわたる平均効果と標準偏差を報告できます。 t 検定などの有意性検定を使用すると、観察された改善が単なる偶然によるものである確率を判断できるようになります。結果が有意義なものになるためには、この確率は少なくとも 5% または 1% 未満である必要があります。これを行うのに統計の専門家である必要はありません。認識率の比較や関連性の比較などのために、それらを計算できるオンラインツールもあります。繰り返し実験を行う場合は、必ず Bonferroni 補正も適用してください。つまり、必要な有意水準を同じデータでの実験の反復回数で割ります。統計的検定の詳細については、ディープラーニング講義のビデオをご覧ください。

罪4: 交絡因子と不良データ

データ品質は機械学習の最大の落とし穴の 1 つです。それは、ひどく偏った、さらには人種差別的な AI につながる可能性があります。しかし、問題はトレーニングアルゴリズムではなく、データ自体にあります。たとえば、2 つの異なるマイクを使用して 51 人の話者の次元を削減した録音を実演しました。同じスピーカーを録音したので、適切な特徴抽出を行った後、実際には同じ位置に投影されるはずです。ただし、同じレコードが 2 つの別々のクラスターを形成していることがわかります。実際には、シーンを録画するカメラで、1 つのマイクを話者の口の真上に配置し、もう 1 つのマイクを約 2.5 メートル離れた場所に配置しました。すでに、2 つの異なるベンダーの 2 つのマイクを使用したり、医療用画像処理の場合は 2 つの異なるスキャナーを使用したりすることで、同様の効果を生み出すことが可能です。すべての病理患者をスキャナー A に記録し、すべてのコントロール被験者をスキャナー B に記録すると、機械学習アプローチはスキャナー間の区別を学習する可能性は高くなりますが、実際の病理は学習しません。実験の結果には非常に満足していただけるでしょう。ほぼ完璧な認識率が得られます。しかし、実際にはモデルは完全に失敗します。したがって、交絡因子と不良データを避けてください。

罪5: 不適切なラベル付け

プロタゴラスはすでに知っていた。「あらゆる点において、基準は人間である。」これは、多くの分類問題のラベルや真実にも当てはまります。人工的なカテゴリを反映するように機械学習モデルをトレーニングします。多くの問題では、クラスを定義した瞬間にクラスが明確であると考えます。データを調べてみると、ImageNet Challenge で 1 つのオブジェクトではなく 2 つのオブジェクトが表示されている画像など、あいまいなケースも頻繁に含まれていることがわかりました。感情認識などの複雑な現象を扱う場合はさらに難しくなります。ここで、多くの現実の観察では、人間でさえ感情を明確に評価できないことがわかります。したがって、正しいラベルを取得するには、複数の評価者に問い合わせて、ラベルの分布を取得する必要があります。これを上の図に示します。赤い曲線は、透明なケース、いわゆるプロトタイプのピーク分布を示しています。青い曲線は、ぼやけたケースの広範な分布を示しています。ここでは、機械だけでなく人間の評価者も矛盾した解釈をしてしまう可能性があります。グラウンドトゥルースを作成するために単一の評価器のみを使用する場合、この問題に気付くことすらないため、ラベルノイズとその効果的な対処方法についての議論につながることがよくあります。真のラベル分布にアクセスできる場合 (もちろんコストはかかります)、行動上の感情と現実の感情を区別する感情認識で見られるようなあいまいなケースを排除することで、システムパフォーマンスを大幅に向上できることも示せます。ただし、実際のアプリケーションではあいまいなケースは発生しないため、これは当てはまらない可能性があります。したがって、単一の評価者よりも複数の評価者を優先する必要があります。

罪6: クロス検証の混乱

これは罪 1 とほぼ同じですが、それは隠されています。そして、提出間近の博士論文でもこれが起こるのを見たことがあります。紙。そのため、専門家でも楽しめるかもしれません。一般的なセットアップでは、最初のステップでモデル、アーキテクチャ、または機能を選択する必要があります。データサンプルが少数しかないため、クロス検証を使用して各ステップを評価することにしました。したがって、データを N 個のフォールドに分割し、N-1 個のフォールドを持つ機能/モデルを選択し、N 番目のフォールドで評価します。これを N 回繰り返すと、平均パフォーマンスを計算し、最もパフォーマンスの高い関数を選択できます。最適な機能がわかったので、クロス検証を使用して機械学習モデルに最適なパラメータを選択する手順に進みます。

これは正しいように思えますか? いいえ! 最初のステップですでにすべてのテストデータを確認し、すべての観測値を平均化しているため、これは誤りです。この方法では、データ内のすべての情報が次のステップに引き継がれ、完全にランダムなデータからでも優れた結果を得ることができます。これを回避するには、最初のステップを 2 番目のクロス検証ループ内にネストするネストされた手順に従う必要があります。もちろん、これは非常に高価であり、多数の実験を実行することになります。この場合、同じデータに対して多くの実験を行っただけで、偶然にも良い結果が得られる可能性があることに注意してください。したがって、統計的検定とボンフェローニ補正も必須です（罪番号 3 を参照）。私は通常、大規模なクロス検証実験を避け、トレーニング/検証/テストの分割ができるように、より多くのデータを取得するように努めます。

罪7: 結果を過剰に解釈する

これまでのすべての罪に加えて、現在の誇大宣伝段階で機械学習において私たちがよく犯す最大の罪は、結果を過剰に解釈し、誇張しすぎることだと私は思います。もちろん、機械学習で作成された成功したソリューションには誰もが満足しており、それを誇りに思う権利があります。ただし、同じアプローチで 2 つの異なる問題を解決したため、結果を目に見えないデータや状態に当てはめて、一般的に問題を解決したと言うことは避けるべきです。

同様に、罪 #5 で行った観察により、超人的なパフォーマンスの主張は疑問を投げかけます。どうすればタグ付けされたソースを上回ることができるでしょうか? 確かに、疲労と集中力では人間を上回ることができますが、人間クラスで総合的に人間を上回ることができるでしょうか? この発言には注意が必要です。

あらゆる主張は事実に基づくべきです。推測に基づいて方法の一般的な適用可能性を想定していることを議論の中で明確にすることはできますが、実際にそれを主張するには、実験的または理論的な証拠を提示する必要があります。最近では、自分のアプローチにふさわしい知名度を与えることが難しい場合がありますが、大きな主張をすることは、自分のアプローチを宣伝するのに役立つことは間違いありません。それでも、根拠と証拠に固執することをお勧めします。そうでなければ、私たちはすぐに次の AI の冬に直面することになり、過去数年にわたって AI に対して示してきた広範な懐疑心と向き合わなければならないかもしれません。現在のサイクルではそれを避け、私たちが本当に達成できることに固執しましょう。

もちろん、皆さんのほとんどはすでに落とし穴を知っています。ただし、機械学習の 7 つの罪を時々確認して、自分が正しい知識を身につけていて、それに陥っていないことを確認することをお勧めします。

罪 #1: データとモデルの誤用 - トレーニングとテストを分離し、過剰適合をチェックしてください! 罪 #2: 不公平な比較 - ベースラインモデルも微調整してください! 罪 #3: 些細な改善 - 有意性検定を実行してください! 罪 #4: 交絡因子と不良データ - データと取得を確認してください! 罪 #5: 不適切なラベル付け - 複数の評価者を使用してください! 罪 #6: クロス検証の混乱 - クロス検証をやりすぎないようにしてください! 罪 #7: 結果の過剰解釈 - 証拠に忠実に従ってください!

<<: 機械学習：教師あり学習と教師なし学習の違いは何ですか？

>>: 人工知能技術は将来のネットワークセキュリティの起爆点と原動力となるかもしれない