機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

機械学習アルゴリズム入門: 線形モデルからニューラルネットワークまで

最近、「機械学習」という言葉をよく耳にするようになりました(通常は予測分析や人工知能の文脈で)。過去数十年にわたり、機械学習は事実上の独自の分野となってきました。現代のコンピューティング能力の進歩のおかげで、機械学習を本当に大規模に活用できるようになったのはごく最近のことです。しかし、機械学習は実際にどのように機能するのでしょうか?答えは簡単です。アルゴリズムです。

機械学習は人工知能の一種であり、本質的にはコンピュータがプログラムされることなく自ら概念を学習するプロセスです。これらのコンピュータ プログラムは、新しいデータにさらされると「思考」(または出力)が変化します。機械学習を実装するにはアルゴリズムが必要です。アルゴリズムはコンピューターに書き込まれ、データを分析するときに従うべきルールを与えます。

機械学習アルゴリズムは予測分析によく使用されます。ビジネスでは、予測分析を使用して、将来何が起こる可能性が高いかを企業に伝えることができます。たとえば、予測分析アルゴリズムを使用すると、オンライン T シャツ小売業者は現在のデータを基に来月 T シャツが何枚売れるかを予測できます。

回帰または分類

機械学習は他の目的にも使用できますが、このガイドでは予測に焦点を当てます。予測とは、入力変数に基づいて出力変数を推定するプロセスです。例えば、特定の家の特徴を入力すれば、販売価格を予測することができます。

予測の問題は、大きく 2 つのカテゴリに分類されます。

  • 回帰問題: 予測したい変数は数値です (例: 家の価格)

  • 分類問題: 予測したい変数は、はい/いいえの答えです (例: 機器が故障するかどうか)

機械学習の予測への応用を紹介したので、次は機械学習アルゴリズムについて説明します。機械学習アルゴリズムは、線形モデル、ツリーベース モデル、ニューラル ネットワークの 3 つのグループに分けられます。

線形モデルアルゴリズムとは

線形モデルでは、単純な数式を使用して、一連のデータ ポイントから「最適な」線を見つけます。既知の変数 (例: 材料) の方程式を使用して、予測したい変数 (例: ケーキを焼くのにかかる時間) を解くことができます。予測値を見つけるには、既知の変数を入力して答えを取得します。つまり、ケーキを焼くのにどれくらいの時間がかかるかを知るには、材料を入力するだけでよいのです。

たとえば、ケーキを焼く場合、次の式を使用します: t = 0.5x + 0.25y。ここで、t はケーキを焼く時間、x はケーキ生地の重さ、y = 1 (チョコレート ケーキの場合)、y = 0 (チョコレート以外のケーキの場合) です。では、ケーキ生地が 1kg あり、チョコレートケーキを作りたいと仮定して、数値を入力して次の式を作成します: t = 0.5(1) + (0.25)(1) = 0.75、つまり 45 分。

線形モデル アルゴリズムにはさまざまな形式がありますが、ここでは線形回帰とロジスティック回帰について説明します。

線形回帰

線形回帰は「最小二乗回帰」とも呼ばれ、線形モデルの最も標準的な形式です。回帰問題(予測しようとしている変数が数値である問題)の場合、線形回帰は最も単純な線形モデルです。

ロジスティック回帰

ロジスティック回帰は、分類問題に適応した単純な線形回帰です (予測しようとしている変数は、はい/いいえの回答です)。ロジスティック回帰は、その構造上、分類問題に適しています。

線形回帰とロジスティック回帰の欠点

線形回帰とロジスティック回帰はどちらも同じ欠点を抱えています。どちらも「過剰適合」する傾向があり、モデルがデータに適合しすぎて、以前は未知だったデータに一般化する能力が犠牲になります。したがって、両方のモデルを正規化する必要があり、過剰適合を防ぐために一定のペナルティが課せられることになります。線形モデルのもう 1 つの欠点は、非常に単純なため、より複雑な動作を予測できないことが多いことです。

ツリーモデルとは何ですか?

ツリー モデルは、データセットを探索し、予測の決定ルールを視覚化するのに役立ちます。ツリー モデルについて聞いたとき、それを決定木または分岐操作のシーケンスとして考えることができます。ツリー モデルは精度が高く、安定しており、解釈も簡単です。線形モデルとは対照的に、非線形関係をマッピングして問題を解決できます。

決定木

決定木は、分岐方法を使用して決定の可能性のあるすべての結果を示すグラフです。たとえば、レタス、トッピング、サラダドレッシングを注文したい場合、意思決定ツリーを使用すると、考えられるすべての結果 (または最終的に得られるサラダの種類) をマッピングできます。

決定木を作成またはトレーニングするには、モデルのトレーニングに使用したデータを取得し、ターゲット トレーニング セットを最も適切に分割する属性を見つけます。

たとえば、クレジットカード詐欺では意思決定ツリーを使用します。不正リスク予測にとって最も重要な属性は消費の詳細であることがわかります (たとえば、消費量が非常に多いクレジットカード ユーザーがいます)。これは、支出額が異常に高いカードとそうでないカードの最初の分割(または分岐)になるかもしれません。次に、2 番目に人気のある属性 (頻繁に使用されるクレジットカードなど) を使用して次の分割を作成します。その後、ニーズに合った十分なプロパティが得られるまで続行できます。

ランダムフォレスト

ランダム フォレストは、データのランダム サンプルを使用してそれぞれトレーニングされた多数の決定木の平均です。フォレスト内の個々のツリーは完全な決定木よりも弱いですが、それらを組み合わせることで多様性を通じて全体的なパフォーマンスを向上させることができます。

ランダムフォレストは、今日の機械学習で非常に人気のあるアルゴリズムです。トレーニング(または構築)が非常に簡単で、パフォーマンスも良好です。欠点は、他のアルゴリズムに比べて出力予測が遅くなる可能性があることです。したがって、超高速の予測が必要な場合は、おそらく使用しないでしょう。

勾配ブースティング

勾配ブースティングは、「弱い」決定木で構成されている点でランダムフォレストに似ています。唯一の違いは、勾配ブースティングではツリーが次々にトレーニングされることです。後続の各ツリーは、主に前のツリーによって誤って識別されたデータを使用してトレーニングされます。これにより、勾配ブースティングは予測しやすいケースよりも予測が難しいケースに重点を置くようになります。

勾配ブースティングもトレーニングが速く、パフォーマンスも非常に優れています。ただし、トレーニング データの小さな変更によってモデルが大幅に変更される可能性があるため、最も解釈しやすい結果が得られない可能性があります。

ニューラルネットワークとは何か

生物学におけるニューラル ネットワークは、相互に情報を交換する相互接続されたニューロンです。この考え方は現在、機械学習の世界に適応されており、人工ニューラルネットワーク (ANN) として知られています。ディープラーニングはよく使われる用語で、連続して配置された複数の層の人工ニューラルネットワークを指します。

人工ニューラル ネットワーク (ANN) には、人間の脳と同様の認知能力を学習できる幅広いモデルが含まれます。ニューラル ネットワークは、他のアルゴリズムでは処理できない非常に複雑なタスク (画像認識など) を処理できます。しかし、人間の脳と同様に、モデルのトレーニングには長い時間がかかり、多くのエネルギーが必要です (脳を働かせるために私たちがどれだけ食べるかを考えてみてください)。

<<:  HanSight 万小川: 国内のセキュリティベンダーはセキュリティ人工知能を推進すべき

>>:  Google による Kaggle の買収が 3 つの世界 (AI、機械学習、データサイエンス) に衝撃を与えたのはなぜでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

機械学習とデータマイニングを一般の人に説明する方法

[[210849]]データサイエンスが人工知能の発展において輝くにつれ、データマイニングと機械学習が...

...

公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

[[427521]]昨日、欧州議会はAI生体認証技術に基づく大規模な監視の全面禁止を求める決議を可決...

トップエキスパートが語る: 生成型AIとロボット工学の未来

ビッグデータダイジェスト制作最近、カーネギーメロン大学、カリフォルニア大学バークレー校、Meta、N...

TensorFlow 学習ニューラルネットワーク構築

1. ニューラルネットワークを構築してレイヤーを追加する入力値、入力サイズ、出力サイズ、活性化関数ニ...

人工知能が伝統文化に新たな命を吹き込む。パンダ型ロボット「Youyou」が国境を越えて「新年クロストーク会議」に参加

「パンダはトークができる、パンダはジョークを言うことができる、パンダは書道を書ける、そしてパンダはチ...

...

ガートナーの調査によると、企業は来年AIプロジェクトを2倍に増やすと予想している。

世界有数の情報技術調査およびアドバイザリ企業であるガートナーによる最近の調査によると、現在人工知能 ...

プログラマーを夢中にさせるソートアルゴリズムに関するビデオ

ルーマニア人はダンスが大好きな国民です。古いルーマニア映画「チプリアン・ボロンベスク」をご覧になった...

ChatGPT を成功させるための 26 のスーパーヒント

今日は、実際の戦闘でよく使われる26のヒントを紹介します。これにより、出力がより効果的になります。見...

5G無人配送車両が北京に登場、現在試験運用中

最近、北京市自転車・電動自動車産業協会が主催した「第一回ターミナル配送インテリジェント交通サミットフ...

ファーウェイクラウドが年間人工知能リストで3つの賞を受賞

このほど、Synced Machine Intelligenceが主催する「AI China」Syn...