機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

最近、「機械学習」という言葉をよく耳にするようになりました（通常は予測分析や人工知能の文脈で）。過去数十年にわたり、機械学習は事実上の独自の分野となってきました。現代のコンピューティング能力の進歩のおかげで、機械学習を本当に大規模に活用できるようになったのはごく最近のことです。しかし、機械学習は実際にどのように機能するのでしょうか?答えは簡単です。アルゴリズムです。

機械学習は人工知能の一種であり、本質的にはコンピュータがプログラムされることなく自ら概念を学習するプロセスです。これらのコンピュータプログラムは、新しいデータにさらされると「思考」（または出力）が変化します。機械学習を実装するにはアルゴリズムが必要です。アルゴリズムはコンピューターに書き込まれ、データを分析するときに従うべきルールを与えます。

機械学習アルゴリズムは予測分析によく使用されます。ビジネスでは、予測分析を使用して、将来何が起こる可能性が高いかを企業に伝えることができます。たとえば、予測分析アルゴリズムを使用すると、オンライン T シャツ小売業者は現在のデータを基に来月 T シャツが何枚売れるかを予測できます。

回帰または分類

機械学習は他の目的にも使用できますが、このガイドでは予測に焦点を当てます。予測とは、入力変数に基づいて出力変数を推定するプロセスです。例えば、特定の家の特徴を入力すれば、販売価格を予測することができます。

予測の問題は、大きく 2 つのカテゴリに分類されます。

回帰問題: 予測したい変数は数値です (例: 家の価格)
分類問題: 予測したい変数は、はい/いいえの答えです (例: 機器が故障するかどうか)

機械学習の予測への応用を紹介したので、次は機械学習アルゴリズムについて説明します。機械学習アルゴリズムは、線形モデル、ツリーベースモデル、ニューラルネットワークの 3 つのグループに分けられます。

線形モデルアルゴリズムとは

線形モデルでは、単純な数式を使用して、一連のデータポイントから「最適な」線を見つけます。既知の変数 (例: 材料) の方程式を使用して、予測したい変数 (例: ケーキを焼くのにかかる時間) を解くことができます。予測値を見つけるには、既知の変数を入力して答えを取得します。つまり、ケーキを焼くのにどれくらいの時間がかかるかを知るには、材料を入力するだけでよいのです。

たとえば、ケーキを焼く場合、次の式を使用します: t = 0.5x + 0.25y。ここで、t はケーキを焼く時間、x はケーキ生地の重さ、y = 1 (チョコレートケーキの場合)、y = 0 (チョコレート以外のケーキの場合) です。では、ケーキ生地が 1kg あり、チョコレートケーキを作りたいと仮定して、数値を入力して次の式を作成します: t = 0.5(1) + (0.25)(1) = 0.75、つまり 45 分。

線形モデルアルゴリズムにはさまざまな形式がありますが、ここでは線形回帰とロジスティック回帰について説明します。

線形回帰

線形回帰は「最小二乗回帰」とも呼ばれ、線形モデルの最も標準的な形式です。回帰問題（予測しようとしている変数が数値である問題）の場合、線形回帰は最も単純な線形モデルです。

ロジスティック回帰

ロジスティック回帰は、分類問題に適応した単純な線形回帰です (予測しようとしている変数は、はい/いいえの回答です)。ロジスティック回帰は、その構造上、分類問題に適しています。

線形回帰とロジスティック回帰の欠点

線形回帰とロジスティック回帰はどちらも同じ欠点を抱えています。どちらも「過剰適合」する傾向があり、モデルがデータに適合しすぎて、以前は未知だったデータに一般化する能力が犠牲になります。したがって、両方のモデルを正規化する必要があり、過剰適合を防ぐために一定のペナルティが課せられることになります。線形モデルのもう 1 つの欠点は、非常に単純なため、より複雑な動作を予測できないことが多いことです。

ツリーモデルとは何ですか?

ツリーモデルは、データセットを探索し、予測の決定ルールを視覚化するのに役立ちます。ツリーモデルについて聞いたとき、それを決定木または分岐操作のシーケンスとして考えることができます。ツリーモデルは精度が高く、安定しており、解釈も簡単です。線形モデルとは対照的に、非線形関係をマッピングして問題を解決できます。

決定木

決定木は、分岐方法を使用して決定の可能性のあるすべての結果を示すグラフです。たとえば、レタス、トッピング、サラダドレッシングを注文したい場合、意思決定ツリーを使用すると、考えられるすべての結果 (または最終的に得られるサラダの種類) をマッピングできます。

決定木を作成またはトレーニングするには、モデルのトレーニングに使用したデータを取得し、ターゲットトレーニングセットを最も適切に分割する属性を見つけます。

たとえば、クレジットカード詐欺では意思決定ツリーを使用します。不正リスク予測にとって最も重要な属性は消費の詳細であることがわかります (たとえば、消費量が非常に多いクレジットカードユーザーがいます)。これは、支出額が異常に高いカードとそうでないカードの最初の分割（または分岐）になるかもしれません。次に、2 番目に人気のある属性 (頻繁に使用されるクレジットカードなど) を使用して次の分割を作成します。その後、ニーズに合った十分なプロパティが得られるまで続行できます。

ランダムフォレスト

ランダムフォレストは、データのランダムサンプルを使用してそれぞれトレーニングされた多数の決定木の平均です。フォレスト内の個々のツリーは完全な決定木よりも弱いですが、それらを組み合わせることで多様性を通じて全体的なパフォーマンスを向上させることができます。

ランダムフォレストは、今日の機械学習で非常に人気のあるアルゴリズムです。トレーニング（または構築）が非常に簡単で、パフォーマンスも良好です。欠点は、他のアルゴリズムに比べて出力予測が遅くなる可能性があることです。したがって、超高速の予測が必要な場合は、おそらく使用しないでしょう。

勾配ブースティング

勾配ブースティングは、「弱い」決定木で構成されている点でランダムフォレストに似ています。唯一の違いは、勾配ブースティングではツリーが次々にトレーニングされることです。後続の各ツリーは、主に前のツリーによって誤って識別されたデータを使用してトレーニングされます。これにより、勾配ブースティングは予測しやすいケースよりも予測が難しいケースに重点を置くようになります。

勾配ブースティングもトレーニングが速く、パフォーマンスも非常に優れています。ただし、トレーニングデータの小さな変更によってモデルが大幅に変更される可能性があるため、最も解釈しやすい結果が得られない可能性があります。

ニューラルネットワークとは何か

生物学におけるニューラルネットワークは、相互に情報を交換する相互接続されたニューロンです。この考え方は現在、機械学習の世界に適応されており、人工ニューラルネットワーク (ANN) として知られています。ディープラーニングはよく使われる用語で、連続して配置された複数の層の人工ニューラルネットワークを指します。

人工ニューラルネットワーク (ANN) には、人間の脳と同様の認知能力を学習できる幅広いモデルが含まれます。ニューラルネットワークは、他のアルゴリズムでは処理できない非常に複雑なタスク (画像認識など) を処理できます。しかし、人間の脳と同様に、モデルのトレーニングには長い時間がかかり、多くのエネルギーが必要です (脳を働かせるために私たちがどれだけ食べるかを考えてみてください)。

<<: HanSight 万小川: 国内のセキュリティベンダーはセキュリティ人工知能を推進すべき

>>: Google による Kaggle の買収が 3 つの世界 (AI、機械学習、データサイエンス) に衝撃を与えたのはなぜでしょうか?