機械学習における数学的意義

機械学習における数学的意義

機械学習におけるパフォーマンスを主張するために使用される指標については、ほとんど議論されていません。この問題については明確で広範なコンセンサスが得られていないように思われるので、私が主張し、可能な限り従うべき基準を示すことは興味深いかもしれないと考えました。それは、中学校の頃から理科の先生が私に教えてくれた、この単純な前提から生まれたものです。

  • 科学的な報告の一般的なルールは、「真」の定義が何であれ、書き留めるすべての数値が「真」である必要があるということです。
  • これがテストのパフォーマンスなどの統計にどのような意味を持つのか調べてみましょう。科学出版物に次のような文章を書くとします。
  • テスト精度は52.34%です。あなたが表現しているのは、あなたが知る限り、テスト分布から抽出された未知のデータでモデルが成功する確率は 0.52335 から 0.52345 の間であるということです。

[[345983]]

それは非常に力強い発言です。

テスト セットが、正しいテスト分布から IID 抽出された N 個のサンプルで構成されているとします。成功率は、サンプル平均によって推定される平均確率pを持つ二項変数として表すことができます:p ≅ s / N

  • 標準偏差はσ=√p(1-p)です。
  • p=0.5 の場合、上限は 0.5 になります。
  • 正規近似では、推定値の標準偏差は δ=σ/√N です。

この精度推定における誤差 δ は、最悪の場合でも精度が約 50% になります。

言い換えれば、上記の例で報告されている 52.34% の精度を達成するには、テスト セットのサイズは少なくとも 3,000 万例程度である必要があります。この大まかな分析は、尤度や困惑度などの連続した数値には変換できませんが、精度以外の計算可能な量には簡単に変換できます。

以下に、一般的な機械学習データセットの説明を示します。

ImageNet では、何桁の精度が合理的に報告できるでしょうか? 15 万枚の画像のテスト セットで、約 80% の精度です。

  • √(0.8*0.2/150000) = 0.103%

つまり、XX.X% という数字を報告できるということであり、事実上すべての人がそうしています。

MNIST の場合、精度は 99% です。

  • √(0.99*0.01/10000) = 0.099%

ふう、XX.X% を報告すれば大丈夫です!

ただし、最も注目すべき点は、ほとんどの場合、パフォーマンス データは個別に提示されるのではなく、同じテスト セットで複数の方法を比較するために使用されることです。この場合、実験間のサンプリング分散は相殺され、サンプルサイズが小さくても実験間の精度の差は統計的に有意になる可能性があります。グラフの分散を推定する簡単な方法は、ブートストラップ再サンプリングを実行することです。より厳密で通常は厳格なテストには、対応のある差異テスト、またはより一般的には ANOVA の実施が含まれます。

パフォーマンス数値はベースラインと比較した場合、またはテスト セットが一定でありテスト分布からサンプリングされていないと見なした場合、より重要になる傾向があるため、本来の精度を超えた数値を報告したくなることがあります。この方法では、モデルが本番環境に展開され、わずかな改善とともに固定されたテスト セットの仮定が突然消えてしまうという予期せぬ事態が発生する可能性があります。より一般的には、このアプローチはテスト セットの過剰適合に直接つながります。

では、私たちの分野で数字が「真実」であるとはどういう意味でしょうか? 実は、それは非常に複雑です。エンジニアにとって、寸法は許容範囲外として報告されるべきではないと主張するのは簡単です。あるいは物理学者にとって、物理量は測定誤差を超えてはなりません。機械学習の実践者として、私たちはテスト セットのサンプリングの不確実性に対処するだけでなく、独立したトレーニングの実行、さまざまな初期化、トレーニング データのシャッフルにわたるモデルの不確実性にも対処する必要があります。

この基準では、機械学習においてどの数字が「本物」であるかを判断することは困難です。もちろん、解決策は、可能な限り信頼区間を報告することです。信頼区間は、ランダム性のすべてのソースと、単純な分散を超えた有意性検定を考慮に入れた、不確実性を報告するより洗練された方法です。これらの要素の存在は、コードが生成した数値だけでなく、レポートする内容の意味についても考慮していることを読者に知らせます。信頼区間として表現される数値は、名目上の精度よりも高い精度で報告される場合がありますが、このブログ投稿で説明されているように、不確実性を報告するために使用する桁数を考慮する必要があることに注意してください。ずっとカメでした。

数字が少ないほど乱雑さが減り、テキストがより科学的になります。

明示的な信頼区間を提供しない限り、統計的有意性を超える数値結果を報告することは避けてください。これは当然ながら、科学的実践としては悪いものと考えられており、特に、有意性検定を行わずにある数値が他の数値よりも優れていると主張するために使用された場合、そう考えられます。論文は、これだけを理由に却下されることが多いです。大きな数字で報告された数値の正確性には常に懐疑的になるのが良い習慣です。最悪のケースの「臭いテスト」として統計的有意性に必要なサンプル数を制限するための 3,000 万、30 万、30 万の経験則を覚えていますか? この経験則により、統計上の幽霊を追いかける必要がなくなります。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<:  Windows コンピューターでディープラーニング モデルをトレーニングしますか?非常に詳細な設定チュートリアルはこちら

>>:  グラフィックで説明する 10 個のグラフ アルゴリズム

ブログ    
ブログ    

推薦する

...

表現学習: 自然言語のための高度なディープラーニング

表現学習では、半教師あり学習と自己教師あり学習の特定の機能を通じて、モデルのトレーニングに必要なデー...

Bengio が参加、LeCun が気に入る: グラフ ニューラル ネットワークの権威あるベンチマークがオープンソースに

[[317692]]グラフニューラルネットワークはどの程度発展しましたか?現在、評価専用のベンチマー...

俳優の顔の交換、AIデート、モザイク除去…2020年のAI界の注目トピックトップ10を振り返る

[[373822]] 2020年が終わりを迎えました。今年、人工知能(AI)分野は浮き沈みに富み、常...

爆発!ローカル展開、複数のAIモデル間の簡単な切り替え

私は週末に AI で遊んでいて、個人的な知識ベースをローカルに展開しています。基本的には OpenA...

200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

ChatGPTの登場以来、OpenAIが使用するトレーニング方法である人間によるフィードバックによる...

NumPy ダイアグラム、配列を視覚的に理解するためのチュートリアル

NumPy パッケージは、Python エコシステムにおけるデータ分析、機械学習、科学計算の主力です...

データ + 進化的アルゴリズム = データ駆動型進化的最適化?進化的アルゴリズムと数学的最適化

データ駆動型進化的最適化とは何ですか? それは単なるデータ + 最適化アルゴリズムですか? データ駆...

数量を増やして価格を下げます! OpenAIが史上最強のChatGPTをリリース。誰でもGPTをカスタマイズ可能。GPTストアは今月開始予定

まもなく、すべての GPT コレクションが GPT ストアを通じてアクセスできるようになります。はい...

なぜ2G/3GとAIは火花を散らすことができないのでしょうか?この論文で答えが分かります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

現在のディープラーニングが人工知能にとって行き詰まりとなっている理由を20の理由から説明します。

ディープラーニングが初めて登場したとき、ほとんどの AI 研究者はそれを嘲笑しましたが、わずか数年で...

ChatGPT文明がオンラインになりました!ワンクリックで明代の南京と中世イタリアを旅しよう

ChatGPT がリリースされてから、宿題をするために ChatGPT を使い始める学生が増えてきま...

脱ぐ!ドローンは1000億元の農薬市場の発展を加速させている

現在、農業の需要と供給の矛盾がますます顕著になる中、植物保護分野におけるドローンの導入と応用は、農業...

ICLR 2024 の合格率は 31% です。清華大学 LCM 論文著者: 冗談を言ったら拒否されました。

国際学習表現会議(ICLR 2024)は今年で12回目となり、今年は5月7日から11日までオーストリ...

...