機械学習の一般的な概念を普及させる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

機械学習の日常生活: モデリング中またはモデリング途中。

モデリングのプロセス中、錬金術愛好家が「なぜまた過剰適合しているのか」とつぶやいたり、「バイアスと分散のバランスを見つけることが成功の秘訣だ」と自らを慰めたりする声が聞こえてきます。

そこで、専門家ではない人でも楽しく学べるように、今日は機械学習の一般的な概念をいくつか紹介します。

一般化

毎日練習している高校のクラスの成績をどのように評価しますか?

彼を試験に連れて行ってください。

では、機械学習の分野における新しいアルゴリズムが優れているかどうかをどのように判断するのでしょうか?

新しいデータを見てみましょう。

トレーニングセット外のデータを適切に判断したり、適切な出力を取得したりする能力は、機械学習モデルの一般化能力と呼ばれます。

さらに、モデルの一般化能力が弱いと言う方法はたくさんあります。

過剰適合と不足適合

一部のモデルは、データの特徴を抽出するステップで直接失敗します。

トレーニングセットはデータに完全には適合せず、実際のサンプルでのパフォーマンスにも大きな誤差があります。

それは、毎日テスト問題を練習しているのに、問題の答え方のパターンが見つからない高校生のようなものです。試験どころか、模擬テストでも成績が悪いのです。

トレーニングセットとテストセット (実際のサンプル) の両方でモデルのパフォーマンスが低下する状況を、アンダーフィッティングと呼びます。

これは通常、モデルの複雑性が低いこと (単純に悪い) が原因で発生します。

いくつかのモデルはトレーニング中に優れたパフォーマンスを発揮します。

しかし、実際の戦闘になると失敗します。

モデルがトレーニングセットではうまく機能するが、テストセットではうまく機能しないという状況を、オーバーフィッティングと呼びます。

サンプルが不十分であったり、トレーニングデータにノイズ (干渉データ) が多すぎるなど、トレーニングセットの品質が高くない場合は、オーバーフィッティングが発生する可能性があります。

また、モデルの複雑さが実際の問題よりも高く、トレーニングデータの情報を記憶するだけで、見たことのない新しいデータに一般化することがまったくできない可能性もあります。

調理方法がいくつあっても、機械モデルの場合、実際のアプリケーションでは常にパフォーマンスが低下し、一般化エラーが発生します。

このエラーはさらに 2 つの側面に分類できます。

誤差 = バイアス + 分散

バイアスと分散

機械学習の分野では、バイアスとはモデルの予測が実際の結果からどの程度逸脱するかを指します。

△ ここで、f(x)は予測関数、yはサンプルデータの真の値である。

分散は真の値とは関係なく、モデルによって得られた予測値の分布のみを表します。

モデルの場合、バイアスはモデル自体の精度を反映し、分散はモデルの安定性を測定します。

モデルが単純すぎてパラメータが少ない場合、バイアスが高く分散が低くなり、適合不足につながる可能性があります。

一方、モデルが複雑でパラメータの数が多い場合は、分散が高くバイアスが低いという特性を持ち、過剰適合が発生します。

良いマシンモデルとは、バイアスと分散を同時に低くすることを追求することのようです。

しかし、実際のアプリケーションでは、バイアスと分散が同時に達成されないことがよくあります。

バイアスと分散のトレードオフ

まず、次の 2 つのモデルを見てみましょう。

右側のモデルは明らかに左側のモデルよりもはるかに複雑であり、そのため左側のモデルとは逆に、バイアスが低く分散が高くなっています。

このバイアスと分散の間の矛盾がバイアスと分散のジレンマです。

アルゴリズムを改善する場合、バイアスを減らすと分散が増加し、逆もまた同様です。

したがって、高い偏差によるアンダーフィッティングも、高い分散によるオーバーフィッティングも引き起こさない適切なバランスポイントを見つける必要があります。

このバイアスと分散のトレードオフは、実際にはモデルの複雑さのトレードオフです。

なぜこれらの概念が提案されたのでしょうか?

簡単に言えば、コンピューターが人間の一般化能力を学習できるようにするためです。

たとえば、ある場所の住宅面積と住宅価格の関係を利用して、住宅販売者がより適切な販売価格を選択できるようにしたい場合、次の機能のうちどれが最適ですか?

△赤は事前に与えられたサンプルデータ

最初のものは明らかに適合不足です。与えられたデータからは、新しい住宅価格帯に対応する販売可能な価格を予測する機能はおろか、一般的なルールも見つかりませんでした。

3つ目は、過剰適合です。関数パラメータが多すぎるため、すべての変化を捉えようとすると、モデルの汎用性が低下し、予測効果が大幅に低下します。

2 番目の関数は基本的にサンプルデータに適合し、一般的なルールを形成し、新しいデータを予測する機能も確保します。

膨大なデータから一般的なルールを見つけることができるのが、モデルの一般化能力です。

モデルの一般化能力が高ければ高いほど、その汎用性は高まり、完了できるタスクの範囲が広くなります。

しかし、ANN (人工ニューラルネットワーク) などの優れた機械学習モデルであっても、バイアスと分散のトレードオフによって制限されます。

アルゴリズムエンジニアは、モデルが古いデータをより適切に要約し、新しいデータを予測できるようにするために、正則化、バギング、ベイズ法などのさまざまな方法を提案してきました。

そして私たちは、最終的に、現在利用可能な最も強力な汎用モデルである人間の脳に限りなく近い機能を備えた機械学習モデルを構築したいと考えています。

<<: OpenAIは、歪んだ見解なしにAIが話すようにするために、わずか80のテキストを使用している

>>: AIはたった1語で手書きを真似できる、ディープフェイクテキスト版が登場、ネットユーザー「すごくリアル」

顔認識がコミュニティに登場: 「顔スキャン」の背後にあるプライバシーとセキュリティの問題

ブログ

NSA、RSA暗号化アルゴリズムに2つ目のバックドアを追加

ブログ

今後のAIの5大発展トレンドとは？2024年は「意味のある人工知能時代」の到来を告げる

ブログ

この「ペア」は悪くないですね！ AIとのペアプログラミング

ブログ

Ocado が機械学習を活用して食品廃棄を減らし、飢餓と闘う方法

ブログ

研究者：AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

ブログ

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

ブログ

AIを活用した臨床モニタリングシステムの台頭

ブログ

クアルコム：米国は自動運転技術の標準化で中国に遅れをとる可能性

ブログ

顔認識はどのように機能しますか?

ブログ

機械学習の一般的な概念を普及させる

一般化

過剰適合と不足適合

バイアスと分散

バイアスと分散のトレードオフ

なぜこれらの概念が提案されたのでしょうか?

顔認識がコミュニティに登場: 「顔スキャン」の背後にあるプライバシーとセキュリティの問題

NSA、RSA暗号化アルゴリズムに2つ目のバックドアを追加

今後のAIの5大発展トレンドとは？2024年は「意味のある人工知能時代」の到来を告げる

この「ペア」は悪くないですね！ AIとのペアプログラミング

Ocado が機械学習を活用して食品廃棄を減らし、飢餓と闘う方法

研究者：AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

AIを活用した臨床モニタリングシステムの台頭

クアルコム：米国は自動運転技術の標準化で中国に遅れをとる可能性

顔認識はどのように機能しますか?

推薦する

フロントエンド人工知能: 機械学習による関数方程式の導出 - プラチナ III

ハッシュアルゴリズムに基づくMySQLテーブルパーティション

人工知能（AI）の開発と応用の観点から見たアルゴリズムテストのテスト戦略

ChatGPTの曖昧な問題への対応力を高める方法についてお話ししましょう

BluePrismが中国市場に参入し、RPA業界に新たな道を開く

GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

スマートテクノロジーが戦いに加わり、宇宙探査が新たな機会をもたらす

通信ネットワークにおけるOSPFプロトコルの適用とアルゴリズムの最適化

PyTorch の 4 分間のチュートリアルで線形回帰の実行方法を学びます

PCの顔認証ログイン、驚くほど簡単

新世代のAIがディープラーニングの問題を解決する

トリガーフリーのバックドアがAIモデルを欺くことに成功し、敵対的機械学習に新たな方向性を与える