お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

機械学習システムを分類する 1 つの方法は、一般化の程度によって分類することです。ほとんどの機械学習タスクには予測の作成が含まれます。これは、システムがトレーニング例を与えられた場合に、これまでに見たことのない例について予測 (一般化) できる必要があることを意味します。トレーニング データで優れたパフォーマンス メトリックを達成することは重要ですが、それだけでは十分ではありません。実際の目的は、新しいオブジェクト インスタンスで適切に動作することです。

[[348092]]

一般化には、インスタンスベースの学習とモデルベースの学習という 2 つの主なアプローチがあります。

01 例に基づく学習

最も一般的な学習方法は、単に暗記することです。この方法でスパム フィルターを作成すると、ユーザーによってすでにスパムとしてマークされているメッセージとまったく同じメッセージのみがフラグ付けされる可能性が高くなります。これは最悪の解決策ではありませんが、最良の解決策でもありません。

同一の電子メールに加えて、既知のスパムと非常によく似た電子メールにフラグを立てるようにシステムをプログラムすることもできます。ここでは、2 つの電子メール間の類似度を測定する必要があります。 (基本的な)類似度の測定は、共通する単語の数を数えることです。新しい電子メールが既知のスパム電子メールと多くの単語を共有している場合、システムはそれをスパムとしてマークすることができます。

これはインスタンスベースの学習と呼ばれます。システムはこれらの例を暗記し、類似性メトリックを使用してそれらをすでに学習したインスタンス(またはそのサブセット)と比較することで、新しいインスタンスに一般化します。たとえば、図 1-15 の新しいインスタンスは、最も類似したインスタンスのほとんどがそのカテゴリに属する​​ため、三角形として分類されます。

図1-15: 例に基づく学習

02 モデルベース学習

一連の例から一般化を達成するもう 1 つの方法は、それらの例のモデルを構築し、そのモデルを使用して予測を行うことです。これをモデルベース学習と呼びます(図1-16を参照)。

図1-16: モデルベース学習

たとえば、お金が人を幸せにするかどうかを知りたいとします。OECDのウェブサイトから「幸福指数」のデータをダウンロードし、国際通貨基金(IMF)のウェブサイトから一人当たりのGDPの統計を見つけることができます。データを表にまとめて一人当たりのGDPで並べ替えると、表1-1のような概要が得られます。

表 1-1: お金は人を幸せにできるか?

これらの国のデータをプロットしてみましょう(図1-17を参照)。

▲図1-17: トレンドチャート

ここには傾向があるようです。データにはノイズ(つまり、一部はランダム)が含まれていますが、それでも、国の一人当たり GDP が増加するにつれて、生活満足度がほぼ直線的に上昇していることがわかります。したがって、生活満足度を一人当たりの GDP の線形関数としてモデル化できます。このプロセスはモデル選択と呼ばれます。一人当たりの GDP という 1 つの属性のみを持つ生活満足度の線形モデルを選択しました (式 1-1 を参照)。

式1-1: 単純な線形モデル

生活満足度 = θ0 + θ1 × 一人当たりGDP

このモデルには、θ0 と θ1 という 2 つのモデル パラメーターがあります。これら 2 つのパラメータを調整することで、このモデルを使用して、図 1-18 に示すように任意の線形関数を表すことができます。

図1-18: 考えられる線形モデル

モデルを使用する前に、パラメータθ0とθ1の値を定義する必要があります。どの値を設定するとモデルのパフォーマンスが最大限に高まるかはどうすればわかるでしょうか? この質問に答えるには、まずモデルのパフォーマンスを測定する方法を決定する必要があります。モデルの良さを測定するためにユーティリティ関数 (または適合度関数) を定義するか、モデルの悪さを測定するためにコスト関数を定義します。

線形回帰問題の場合、コスト関数を使用して線形モデルの予測とトレーニング例のギャップを測定し、このギャップを最小限に抑えることが一般的な選択肢となります。

これがまさに線形回帰アルゴリズムの目的です。つまり、提供されたトレーニング サンプルを使用して、提供されたデータに最も適合する線形モデルのパラメーターを見つけます。これをモデルのトレーニングと呼びます。この場合、アルゴリズムは最適なパラメータ値がθ0 = 4.85およびθ1 = 4.91×10^(-5)であることを発見しました。

注: 紛らわしいことに、同じ単語「モデル」が、モデルの種類 (例: 線形回帰)、完全に特定のモデル アーキテクチャ (例: 1 つの入力と 1 つの出力を持つ線形回帰)、または予測に使用できるトレーニング済みモデル (例: パラメーター θ0 = 4.85 および θ1 = 4.91×10^(-5) を使用した 1 つの入力と 1 つの出力を持つ線形回帰) を指す場合があります。モデルの選択には、モデルのタイプを選択し、そのアーキテクチャを完全に指定することが含まれます。モデルをトレーニングするということは、トレーニング データに最適に適合する (そして新しいデータに対して適切な予測ができる) モデルのパラメータを見つけるアルゴリズムを実行することを意味します。

これで、(線形モデルの場合)モデルはトレーニング データに近づきました(図 1-19 を参照)。

図1-19: トレーニングデータに最も適合する線形モデル

これで、ようやくモデルを実行して予測を行うことができます。たとえば、キプロス人がどれだけ幸せかを知りたいのですが、OECD のデータでは答えが得られません。幸いなことに、予測を行うためのモデルがあります。まず、キプロスの一人当たり GDP を確認し、それが 22,587 米ドルであることを確認します。次に、それをモデルに適用すると、生活満足度がおよそ 4.85 + 22,587×4.91×10^(-5) = 5.96 であることがわかります。

興味をそそられる例 1-1 は、データを読み込み、データを準備し、視覚化のための散布図を作成し、線形モデルをトレーニングして予測を行う Python コード スニペットです。

  • 例 1-1: Scikit-Learn を使用した線形モデルのトレーニングと実行

  1. matplotlib.pyplot をpltとしてインポートします。
  2. numpyをnpとしてインポートする
  3. pandasをpdとしてインポートする
  4. sklearn.linear_model をインポートする
  5.  
  6. #データをロードする
  7. oecd_bli = pd.read_csv( "oecd_bli_2015.csv" , 千単位 = ',' )
  8. gdp_per_capita = pd.read_csv( "gdp_per_capita.csv" ,千単位= ',' ,区切り文字= '\t' ,
  9. エンコーディング= 'latin1' 、na_values= "n/a" )
  10.  
  11. #データを準備する
  12. 国統計 = 準備国統計(OECD の BLI、一人当たりの GDP)
  13. X = np.c_[country_stats[ "一人当たりGDP" ]]
  14. y = np.c_[country_stats[ "生活満足度" ]]
  15.  
  16. # データを視覚化する
  17. country_stats.plot(kind= 'scatter' 、 x= "一人当たりのGDP" 、 y= '生活満足度' )
  18. plt.show()
  19.  
  20. #線形モデルを選択
  21. モデル = sklearn.linear_model.LinearRegression()
  22. # モデルをトレーニングする
  23. モデル.fit(X, y)
  24.  
  25. #キプロス予測する
  26. X_new = [[22587]] # キプロスの一人当たりGDP
  27. print(model.predict(X_new)) # 出力 [[ 5.96242338]]

インスタンスベースの学習アルゴリズムを使用すると、スロベニアの一人当たり GDP がキプロス (20,732 ドル) に最も近いことがわかります。また、OECD データによるとスロベニア人の生活満足度スコアは 5.7 であるため、キプロスの生活満足度スコアは 5.7 になると予測されるでしょう。

少し範囲を広げてみると、最も近い2つの国、ポルトガルとスペインの生活満足度スコアは、それぞれ5.1と6.5でした。これら 3 つの値の平均を取ると 5.77 となり、これもモデルに基づいて予測された値に非常に近くなります。この単純なアルゴリズムは、k 最近傍回帰と呼ばれます (この場合、k = 3)。

前のコードの線形回帰モデルを k 最近傍回帰モデルに置き換えるのは非常に簡単です。次のコード行を変更するだけです。

  1. sklearn.linear_model をインポートする
  2. モデル = sklearn.linear_model.LinearRegression()

次と置き換えます:

  1. sklearn.neighborsをインポートする
  2. モデル = sklearn.neighbors.KNeighborsRegressor(
  3. n_neighbors=3)

すべてがうまくいけば、モデルは優れた予測を行うでしょう。そうでない場合は、より多くの属性 (雇用率、健康、大気汚染など) を使用するか、より多くの、またはより高品質のトレーニング データを取得するか、より強力なモデル (多項式回帰モデルなど) を選択する必要があります。

要するに:

  • 研究データ。
  • モデルを選択します。
  • トレーニング データをトレーニングに使用します (つまり、以前の学習アルゴリズムがコスト関数を最小化するためにモデル パラメーター値を検索するプロセス)。
  • 最後に、モデルが適切に一般化されることを期待しながら、モデルを適用して新しい例に対する予測 (推論と呼ばれる) を行います。

上記は典型的な機械学習プロジェクトです。

<<:  顔認識はどこにでもあるが、デジタル悪用のリスクに注意

>>:  ネットワーク管理における機械学習の応用は何ですか?

ブログ    

推薦する

...

...

ブロックチェーンのいくつかのコンセンサスアルゴリズム

まず、一般的なビザンチン将軍問題からコンセンサスとは何かを理解しましょう。ビザンチン将軍問題ビザンチ...

AIに置き換えられる最後のグループも失業するだろう

[[262639]]これまで、データラベラーは常に「AI に置き換えられる最初のグループ」と呼ばれて...

人工知能におけるGNNとは何ですか?

グラフディープラーニング(GDL)は有望な研究分野であり、グラフデータに基づいた学習や分析は非常に有...

量子化学計算と機械学習に基づいて、肉眼で検出可能な蛍光分子をゼロから作成する

蛍光分子を設計するには、分子の光吸収など、分子構造に直接関連するものだけでなく、相互に関連する複数の...

いくつかの負荷分散アルゴリズムの原理とコード実装

ポーリング アルゴリズム: 受信したリクエストをバックエンド サーバーに順番に転送します。現在のサー...

はっきり言って、Alipay の年間請求額はほんの始まりに過ぎません。AI があらゆる場所に存在する未来において、プライバシーはどこにあるのでしょうか?

一昨日の午後、大隊長の友人の輪にはアリペイの「私の年間キーワード」が頻繁に送られてきた。画像出典: ...

AI対応データセンターは急速に成長すると予想

企業の人工知能に対する飽くなき需要により、計算集約型の AI アプリケーションを処理するために設計さ...

建設業界における人工知能のメリット

建設における AI は、設計、入札、資金調達、調達、建設、運用、資産管理、ビジネス モデルの変革など...

...

データセンターにおけるAI技術の応用

AI技術はここ数年で進歩しており、データセンターを含む多くの業界で導入されています。たとえば、Goo...

ケビン・ケリーがAIブームを解説:超人的なAIを暴く5つの神話

人工知能は非常に人気が高まっているため、ニュースで報道される超知能に関する予測が実現可能なものなのか...

自動化はウエスタン証券のデジタル従業員にとっての出発点

金融テクノロジーと伝統テクノロジーの相互支援は、徐々に証券業界の発展の中核的な原動力となってきました...

人工知能の時代、今後子どもたちが持つどんな能力が人気になるのでしょうか?

今年の全国人民代表大会では、「人工知能」というホットな言葉が登場した。先週の土曜日、中国教育も音声デ...