機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

最近、「機械学習」という言葉をよく耳にするようになりました(通常は予測分析や人工知能の文脈で)。過去数十年にわたり、機械学習は事実上の独自の分野となってきました。現代のコンピューティング能力の進歩のおかげで、機械学習を本当に大規模に活用できるようになったのはごく最近のことです。しかし、機械学習は実際にどのように機能するのでしょうか?答えは簡単です。アルゴリズムです。

機械学習は人工知能の一種であり、本質的にはコンピュータがプログラムされることなく自ら概念を学習するプロセスです。これらのコンピュータ プログラムは、新しいデータにさらされると「思考」(または出力)が変化します。機械学習を実装するにはアルゴリズムが必要です。アルゴリズムはコンピューターに書き込まれ、データを分析するときに従うべきルールを与えます。

機械学習アルゴリズムは予測分析によく使用されます。ビジネスでは、予測分析を使用して、将来何が起こる可能性が高いかを企業に伝えることができます。たとえば、予測分析アルゴリズムを使用すると、オンライン T シャツ小売業者は現在のデータを基に来月 T シャツが何枚売れるかを予測できます。

回帰または分類

機械学習は他の目的にも使用できますが、このガイドでは予測に焦点を当てます。予測とは、入力変数に基づいて出力変数を推定するプロセスです。例えば、特定の家の特徴を入力すれば、販売価格を予測することができます。

予測の問題は、大きく 2 つのカテゴリに分類されます。

  • 回帰問題: 予測したい変数は数値です (例: 家の価格)

  • 分類問題: 予測したい変数は、はい/いいえの答えです (例: 機器が故障するかどうか)

機械学習の予測への応用を紹介したので、次は機械学習アルゴリズムについて説明します。機械学習アルゴリズムは、線形モデル、ツリーベース モデル、ニューラル ネットワークの 3 つのグループに分けられます。

線形モデルアルゴリズムとは

線形モデルでは、単純な数式を使用して、一連のデータ ポイントから「最適な」線を見つけます。既知の変数 (例: 材料) の方程式を使用して、予測したい変数 (例: ケーキを焼くのにかかる時間) を解くことができます。予測値を見つけるには、既知の変数を入力して答えを取得します。つまり、ケーキを焼くのにどれくらいの時間がかかるかを知るには、材料を入力するだけでよいのです。

たとえば、ケーキを焼く場合、次の式を使用します: t = 0.5x + 0.25y。ここで、t はケーキを焼く時間、x はケーキ生地の重さ、y = 1 (チョコレート ケーキの場合)、y = 0 (チョコレート以外のケーキの場合) です。では、ケーキ生地が 1kg あり、チョコレートケーキを作りたいと仮定して、数値を入力して次の式を作成します: t = 0.5(1) + (0.25)(1) = 0.75、つまり 45 分。

線形モデル アルゴリズムにはさまざまな形式がありますが、ここでは線形回帰とロジスティック回帰について説明します。

線形回帰

線形回帰は「最小二乗回帰」とも呼ばれ、線形モデルの最も標準的な形式です。回帰問題(予測しようとしている変数が数値である問題)の場合、線形回帰は最も単純な線形モデルです。

ロジスティック回帰

ロジスティック回帰は、分類問題に適応した単純な線形回帰です (予測しようとしている変数は、はい/いいえの回答です)。ロジスティック回帰は、その構造上、分類問題に適しています。

線形回帰とロジスティック回帰の欠点

線形回帰とロジスティック回帰はどちらも同じ欠点を抱えています。どちらも「過剰適合」する傾向があり、モデルがデータに適合しすぎて、以前は未知だったデータに一般化する能力が犠牲になります。したがって、両方のモデルを正規化する必要があり、過剰適合を防ぐために一定のペナルティが課せられることになります。線形モデルのもう 1 つの欠点は、非常に単純なため、より複雑な動作を予測できないことが多いことです。

ツリーモデルとは何ですか?

ツリー モデルは、データセットを探索し、予測の決定ルールを視覚化するのに役立ちます。ツリー モデルについて聞いたとき、それを決定木または分岐操作のシーケンスとして考えることができます。ツリー モデルは精度が高く、安定しており、解釈も簡単です。線形モデルとは対照的に、非線形関係をマッピングして問題を解決できます。

決定木

決定木は、分岐方法を使用して決定の可能性のあるすべての結果を示すグラフです。たとえば、レタス、トッピング、サラダドレッシングを注文したい場合、意思決定ツリーを使用すると、考えられるすべての結果 (または最終的に得られるサラダの種類) をマッピングできます。

決定木を作成またはトレーニングするには、モデルのトレーニングに使用したデータを取得し、ターゲット トレーニング セットを最も適切に分割する属性を見つけます。

たとえば、クレジットカード詐欺では意思決定ツリーを使用します。不正リスク予測にとって最も重要な属性は消費の詳細であることがわかります (たとえば、消費量が非常に多いクレジットカード ユーザーがいます)。これは、支出額が異常に高いカードとそうでないカードの最初の分割(または分岐)になるかもしれません。次に、2 番目に人気のある属性 (頻繁に使用されるクレジットカードなど) を使用して次の分割を作成します。その後、ニーズに合った十分なプロパティが得られるまで続行できます。

ランダムフォレスト

ランダム フォレストは、データのランダム サンプルを使用してそれぞれトレーニングされた多数の決定木の平均です。フォレスト内の個々のツリーは完全な決定木よりも弱いですが、それらを組み合わせることで多様性を通じて全体的なパフォーマンスを向上させることができます。

ランダムフォレストは、今日の機械学習で非常に人気のあるアルゴリズムです。トレーニング(または構築)が非常に簡単で、パフォーマンスも良好です。欠点は、他のアルゴリズムに比べて出力予測が遅くなる可能性があることです。したがって、超高速の予測が必要な場合は、おそらく使用しないでしょう。

勾配ブースティング

勾配ブースティングは、「弱い」決定木で構成されている点でランダムフォレストに似ています。唯一の違いは、勾配ブースティングではツリーが次々にトレーニングされることです。後続の各ツリーは、主に前のツリーによって誤って識別されたデータを使用してトレーニングされます。これにより、勾配ブースティングは予測しやすいケースよりも予測が難しいケースに重点を置くようになります。

勾配ブースティングもトレーニングが速く、パフォーマンスも非常に優れています。ただし、トレーニング データの小さな変更によってモデルが大幅に変更される可能性があるため、最も解釈しやすい結果が得られない可能性があります。

ニューラルネットワークとは何か

生物学におけるニューラル ネットワークは、相互に情報を交換する相互接続されたニューロンです。この考え方は現在、機械学習の世界に適応されており、人工ニューラルネットワーク (ANN) として知られています。ディープラーニングはよく使われる用語で、連続して配置された複数の層の人工ニューラルネットワークを指します。

人工ニューラル ネットワーク (ANN) には、人間の脳と同様の認知能力を学習できる幅広いモデルが含まれます。ニューラル ネットワークは、他のアルゴリズムでは処理できない非常に複雑なタスク (画像認識など) を処理できます。しかし、人間の脳と同様に、モデルのトレーニングには長い時間がかかり、多くのエネルギーが必要です (脳を働かせるために私たちがどれだけ食べるかを考えてみてください)。

<<:  HanSight 万小川: 国内のセキュリティベンダーはセキュリティ人工知能を推進すべき

>>:  Google による Kaggle の買収が 3 つの世界 (AI、機械学習、データサイエンス) に衝撃を与えたのはなぜでしょうか?

ブログ    

推薦する

人工知能が裁判官の判断に取って代われば、司法権は誤った方向に導かれる可能性がある

近年、社会構造の転換と国民の権利意識の強化に伴い、中国の裁判所が受理する事件の規模は毎年二桁増加し、...

[ディープラーニングシリーズ] PaddlePaddle データ前処理

前回の記事では、畳み込みニューラルネットワークの基礎知識についてお話ししました。本来、この記事では、...

2021年に自動運転はどのように発展するのでしょうか?

EEtimesより翻訳2021年に自動運転車はどうなるでしょうか。自動運転業界の昨年の業績は平凡で...

時代と戦う:ハードコアな百度の AI 探究

2021年2月18日午前、百度は2020年第4四半期および通期の財務報告を発表し、印象的なデータを示...

年収100万のAI関連職種4つ

ディープラーニング技術の成熟に伴い、AIは最先端技術から徐々に普及しつつあります。最先端のテクノロジ...

ボストン・ダイナミクスの工場で働くロボット犬が話題に

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習によるディープラーニングが企業の今後の方向性となる理由

機械アルゴリズムのディープラーニングは、ビジネスの世界に多くの変化をもたらしました。定義上、これは人...

人工知能の時代に優れた教師とはどのような人物であるべきでしょうか?

つい先日の教師の日、ジャック・マー氏は引退を発表し、正式にアリババの会長を辞任した。引退後、ジャック...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...

...

AI は無限であり、あなたの声によって動かされます。マイクロソフトは慈善団体や業界のパートナーと協力し、テクノロジーで愛を育むお手伝いをします。

12月2日、マイクロソフトと周迅のAI音声紅丹丹慈善プロジェクトの発起人である魯音源文化伝承社は、...

データセンターの未来: AIの力を活用して経済成長とイノベーションを推進

人気のSF小説で「機械知能の台頭」が描かれる場合、通常はレーザーや爆発が伴い、軽度な場合には軽い哲学...

インテリジェントビル通信システムの構成と要件

1. インテリジェントビル通信システムの構成インテリジェントビル通信システムは、主に以下の部分で構成...

...