機械学習の基本概念30選(手描きイラスト)

機械学習の基本概念30選(手描きイラスト)

01 空間表現

深遠な機械学習理論を学ぶ前に、まず機械学習の最も基本的な概念のいくつかを紹介しましょう。

  • 機能: 属性ベクトルによって表される、特定のものの属性の説明。 j番目のレコードxjの属性ベクトルは次のように表すことができます。

xj=(xj(1),xj(2),…,xj(i),…,xj(n)), j=1,2,…,N, xj∈X

各xj(i)は特徴次元上の値です。

  • ラベル: サンプル ラベルとも呼ばれ、オブジェクトの特定の特性を表すために使用されます。
  • タグ値: タグの値。バイナリ分類問題では、値は通常 0 と 1 です。
  • ラベル空間 (出力空間): Y で表されるすべてのラベルの集合。
  • サンプル: サンプルとも呼ばれます。対応するタグを持つレコードは、(レコード、タグ) のペアで表されます。たとえば、j 番目の例は次のように表現できます。

(xj, yj), j=1,2,…,N, xj∈X, yj∈Y

仮説空間 F は通常、パラメータベクトルによって決定される関数の族です。

F = {f | Y = fw(X), w∈Rn}

このうち、パラメータベクトルwはn次元ベクトル空間Rn上の値をとり、これをパラメータ空間と呼びます。仮説空間 F は、条件付き確率の集合 (確率モデル) として定義することもできます。

F = {P|P(Y|X)}

このうち、X は入力空間 X 上で定義されたランダム変数であり、Y は出力空間 Y 上で定義されたランダム変数です。

上記の式は、理解するのが少し抽象的かもしれません。次に、実際の例を通して関連する概念を理解しましょう。

まず、モデルを構築する前に、次のような複数の例で構成されるサンプル セットが必要です。

(ユーザーA、{年齢:29、身長:185、年収:70、婚姻状況:独身、ステータス:滞納})

(ユーザーB、{年齢:24、身長:167、年収:31、婚姻状況:既婚、ステータス:滞納なし})

(ユーザーC、{年齢:46歳、身長:177、年収:50、婚姻状況:離婚、状況:滞納なし})

各ユーザーとその属性のペアはサンプル (または観測値) と呼ばれます。このような一連のユーザーとその属性がサンプルセットを構成し、その中でユーザー「A」、「B」、「C」がサンプル空間を構成し、「特徴年齢」、「身長」、「年収」、「婚姻状況」が特徴空間を構成します。

さらに、パラメータ空間と呼ばれる空間があり、これは予測関数を構成するパラメータのすべての値で構成される空間です。 「ステータス」フィールドはサンプルのラベルを表し、モデルが判断する必要がある結果です。

この例では、特徴空間には年齢、身長、年収、婚姻状況の 4 つの値があります。これら 4 つの値は特徴空間の 4 つの次元を表します。言い換えると、この特徴空間の次元は 4 です。適切な仮定の下では、モデルは各機能が互いに干渉しないことを予想しますが、実際の状況では、通常、各機能間に関係がある可能性があります。

たとえば、2 つの次元 (年齢と身長) をプロットできます。若いとき(0~8歳)は、図3-1に示すように、身長の値が年齢とともに増加し続けることがはっきりとわかります。

▲図3-1 変数相関の例

婚姻状況の特徴は、{未婚、既婚、離婚} の値を取ることがあり、これら 3 つの値によって婚姻状況の次元における特徴空間の値が制限されます。

データ内に{未婚、離婚}の値を持つサンプルが2つしかない場合、このデータセットはそれが配置されているサンプル空間を完全には表すことができません。つまり、特定の特性次元の一部の値が観察されず、この次元の特性の真の分布を十分に観察することができません。

観測されたサンプルポイントを通じて、図 3-2 に示すように、陰影付きの空間のみを表現できます。

▲図3-2 空間表現の例

02 モデル学習

モデル トレーニング (学習またはフィッティングとも呼ばれる) とは、モデルにデータを渡し、モデルがデータの基礎となる法則 (データの分布など) を学習するプロセスを指します。モデル構築の本質は、データ分布から決定関数を抽象化することとして理解できます。

決定関数(非確率モデル)は、入力空間Xから出力空間Yへのマッピングf:X→Yとして定義されます。

仮説空間 F は、次の形式を持つ決定関数の集合として定義されます。

F = {f|Y = f(X)}

このうち、X は入力空間 X、X∈X 上で定義された変数であり、Y は出力空間 Y 上で定義された変数です。

人が男性か女性か、ユーザーがローンを返済するかどうかなど、離散値を予測する場合、このタスクは分類と呼ばれます。同様に、ある人の年齢を予測したり、ユーザーが将来ローンを返済する時期を予測したりする場合、そのようなタスクは回帰と呼ばれます。

タスクに 2 つの値しかない場合、そのタスクはバイナリ分類タスクと呼ばれます。スコアリング カード モデルは、ユーザーが期限を過ぎるかどうかを予測する典型的なバイナリ分類タスクです。タスクに複数のカテゴリが含まれる場合、それはマルチ分類タスクと呼ばれます。

代表的な例としては、不正検知を行う際にユーザーが不正行為を行ったかどうかを予測することが挙げられます。これは一見、バイナリ分類(不正行為かどうかを予測する)タスクのように見えますが、実際にはユーザーの不正行為の手口はそれぞれ異なり、それぞれの不正行為の手口は別のカテゴリとなるため、本質的にはマルチ分類タスクとなります。

データにラベルが付けられているかどうかの観点から、モデルは教師あり学習 (SL)、半教師あり学習 (SSL)、教師なし学習 (UL) の 3 つのカテゴリに分類できます。

  • 教師あり学習とは、アプリケーション スコアカードのモデリングにおいて、サンプル セット内の各ユーザーのラベルが明確にわかっていること、つまり、そのうちの 1 人を選択すると、そのユーザーの延滞ステータスがわかることを意味します。
  • 教師なし学習とは、モデリング時に現在のサンプルセットのラベル情報がないこと、つまりどの人が期限を過ぎているかがまったくわからないことを意味します。
  • 半教師あり学習はその中間です。現在のサンプル セットでは、一部のサンプルのラベルはわかっていますが、他のサンプルのラベルが期限切れかどうかはわかりません。

通常、モデルのパフォーマンスは次のようにランク付けされます。

教師あり学習 > 半教師あり学習 > 教師なし学習

ほとんどの場合、結果として得られるモデルがより良くなるように、ラベル情報を可能な限り使用する必要があります。しかし、多くの場合、ラベルを付けるかどうかは個人によって決まるわけではありません。たとえば、多くのプラットフォームでは不正なユーザーに対するラベルがないため、教師ありモデルのトレーニングは困難です。ただし、半教師あり学習と教師なし学習は一定の役割を果たすことができます。

03 モデル評価

モデル学習の結果については、主にアンダーフィットとオーバーフィットの 2 つが懸念されます。

アンダーフィッティングとは、モデルが適切に適合されておらず、データがフィッティング曲線から遠く離れていること、またはモデルがデータの特性をうまく捉えておらず、データに適切に適合できないことを意味します。つまり、モデルは学習の過程で習得すべき知識を十分に習得しておらず、モデル学習の偏差が大きくなっていたのです。

過剰適合とは、一貫した仮説を得るために仮説を厳しくしすぎること、つまりモデルが詳細に学習しすぎて、一部の個別のケースの特徴を共通の特徴として捉えてしまうことを意味し、その結果、モデルの一般化能力が低下します。

図 3-3 は、オーバーフィッティングとアンダーフィッティングの意味を非常にわかりやすく説明しています。図 a はアンダーフィッティング、図 b は良好なフィッティング、図 c はオーバーフィッティングを表しています。簡単に言えば、オーバーフィッティングとはモデルが慎重に学習しすぎることを意味し、アンダーフィッティングとはモデルが大まかに学習しすぎることを意味します。

▲図3-3 適合度

モデル構造が複雑になるほど、過剰適合が発生しやすくなります。サンプル サイズが大きいほど、データ分布がより完全に公開され、モデルが過剰適合する可能性が低くなります。過剰適合と不足適合をより適切に表現するために、通常、モデリング中にサンプル セットはトレーニング セット (Train) とテスト セット (Test) に分割されます。

トレーニング セットはモデルのトレーニングに使用されるセットですが、テスト セットは主に、モデルの有効性を確認するためにトレーニング後にモデルをテストするために使用されます。一般的に、トレーニング セットではパフォーマンスが良いがテスト セットではパフォーマンスが悪いモデルは過剰適合のリスクがあり、トレーニング セットではテスト セットよりも大幅にパフォーマンスが悪いモデルは過小適合のリスクがあると考えられています。

モデルをトレーニングするときは、モデルがトレーニング セットで十分に機能することを期待するだけでなく、モデルが他のデータセットでも十分に機能することを期待します。トレーニング セットでのパフォーマンスとテスト セットでのパフォーマンスの差は一般化誤差と呼ばれ、一般化誤差はバイアス、分散、ノイズの 3 つの部分で構成されます。

バイアスは、モデルの予想される予測と実際の結果の間の偏差の度合い、つまりモデル自体の適合能力を測定します。

分散は、同じサイズのトレーニング セットの変更によって引き起こされる学習能力の変化、つまりデータの変化の影響を測定します。

ノイズは、問題自体を適合させることの難しさを表します。

図3-4はトレーニングの度合いと誤差の関係を示しています。

▲図3-4 トレーニングレベルと誤差

通常、オフライン モデル トレーニングが完了し、最終モデルがオンラインになる前に、テスト セットとトレーニング セットが統合され、モデル係数が再調整されて最終モデルが得られます。これは、人工データセットが大きいほど、サンプル空間がより完全に表現される可能性が高くなるためです。一部の露出不足の特徴値に対応するラベル分布は、データ量が増加すると露出率が高くなる可能性があります。たとえば、前の例のデータ セットは次のようになります。

(ユーザーA、{年齢:29、身長:185、年収:70、婚姻状況:独身、ステータス:滞納})

(ユーザーB、{年齢:24、身長:167、年収:31、婚姻状況:既婚、ステータス:滞納なし})

(ユーザーC、{年齢:46歳、身長:177、年収:50、婚姻状況:離婚、状況:滞納なし})

婚姻状況の値がトレーニング セットには存在せず、テスト セットにのみ存在する場合、テスト セットとトレーニング セットを組み合わせて最終モデルを取得すると、将来のユーザーを予測する際の偏差は小さくなります。

ただし、極度勾配ブースティングマシン(XGBoost)などの一部のモデルでは、トレーニングプロセスの早期停止を実現するためにテストサンプルセットを使用する必要があります。そのため、元のトレーニングセットから少数のサンプルを選択して早期停止の基準とするなど、トレーニングに参加しない追加のサンプルを選択する必要があります。

著者について: Mei Zixing は、上級リスク管理技術専門家、AI 技術専門家、アルゴリズム専門家です。多くの有名な金融テクノロジー企業でアルゴリズム研究者およびデータマイニング エンジニアとして勤務してきました。彼は、Experian、Discover などの企業で上級リスク管理専門家の下で学びました。彼は、ディープラーニング、複雑ネットワーク、転移学習、異常検出などの非伝統的な機械学習手法を得意とし、データマイニングやアルゴリズムのクロスドメイン最適化の実践に熱心です。

Mao Xinyu は、シニアブランドビジュアルデザイナー兼イラストレーターです。彼はかつて国内の有名な文化観光会社のブランドデザイナーとして働いており、有名な文化観光地やブランドデザイン事例の設計と作成に携わっていました。

この記事は「スマートリスクコントロール: Python による財務リスク管理とスコアカードモデリング」から抜粋したもので、出版社の許可を受けています。

<<:  AI時代のRedis

>>:  IoTとAIはパンデミック中に企業が事業を再開するのにどのように役立つか

ブログ    
ブログ    

推薦する

小売業における人工知能:生き残りは賢くなることにかかっている

機械学習は、ビジネスを急速に成長させたい小売業者にとって急速に必要不可欠なものになりつつありますが、...

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説とな...

Python で KNN アルゴリズムを使用して欠損データを処理する

欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...

...

...

人工知能の時代において、テクノロジーは中立ではない

インターネットや人工知能に代表される情報技術の台頭により、社会は第三次科学技術革命の時代を迎えていま...

OpenAI は GPT-4 をすべての有料 API ユーザーに公開します

OpenAIは7月7日、今年3月にGPT-4をリリースしたが、テストへの参加を申請した一部の開発者の...

AI を活用した会話型顧客体験の可能性を引き出す方法

企業は AI ツールを使用して、顧客ロイヤルティにプラスの影響を与え、利益を増やすことができる会話型...

インベントリ | 2018 年のトップ 10 新興テクノロジー: 人体は「医薬品工場」になる

[[244104]] Scientific American誌によると、近い将来、人工知能(AI)が...

第2回世界情報会議の3つのハイライトを一足先にご紹介

5月16日から18日まで、第2回世界情報会議が天津で開催されます。 「インテリジェント時代:新たな進...

中国航空工業集団の「ドラゴンネスト」の初飛行は、電力検査のインテリジェント時代の幕開けを告げる

最近、北京市南六環路の北京延尊物流園区付近の安坊線70号塔の下で、中飛Avi Dragon Nest...

AI チャットボットの 7 つの使い方

今日、ビジネスプロフェッショナルは市場での収益を増やすために高度なテクノロジーを求めています。人工知...

AI言語モデルのオープンソース化による10のプラスとマイナスの影響

GPT や PaLM などの独自のソフトウェアが市場を支配していますが、多くの開発者は依然としてオー...

携帯電話は小型ロボットに置き換えられるのでしょうか?中国工程院院士:人工知能技術のブレークスルーが鍵

[[361089]] 「ロボットは製造業の頂点であり、その応用と製造は国のハイエンド製造業の重要な指...