教師あり学習か教師なし学習か?この問題は明確にされなければならない

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

機械学習の旅に乗り出すとき、最初にすべきことは教師あり学習と教師なし学習を理解することです。初心者にとって、「教師あり学習と教師なし学習の違いは何ですか？」が最もよくある質問です。

その答えは、機械学習アルゴリズムの性質を理解することにあります。教師あり学習と教師なし学習を明確に区別しないと、学習は進みません。

sSDBQIF は、線形回帰、ロジスティック回帰、クラスタリング、ニューラルネットワークなどのアルゴリズムの適用範囲を理解していない場合、モデル構築段階に直接入ることができません。

機械学習アルゴリズムの目的がわからないと、正確なモデルを構築することはできません。ここで、教師あり学習と教師なし学習が登場します。

この記事は、この問題の解決に役立ち、もう 1 つの重要な質問、「教師あり学習と教師なし学習をいつ使用するかをどのように決定するか」を提起します。

教師あり学習とは何ですか?

教師あり学習では、コンピューターは例を通して学習します。過去のデータから学習し、その学習内容を現在のデータに適用して将来の出来事を予測します。この場合、入力データと予想される出力データの両方が将来のイベントを予測するのに役立ちます。

正確な予測を行うために、入力データは正解としてラベル付けされます。

教師あり機械学習分類

すべての教師あり学習アルゴリズムは、分類モデルまたは回帰モデルのいずれかに分類される複雑なアルゴリズムであることを覚えておくことが重要です。

回帰モデル - 回帰モデルは、出力変数が単一の数値、ドル、給与、体重、ストレスなどの実数値である問題に使用されます。最もよく使用されるのは、以前に観測されたデータに基づいて値を予測することです。より一般的な回帰アルゴリズムには、線形回帰、ロジスティック回帰、多項式回帰、リッジ回帰などがあります。
分類モデル - 分類モデルは、出力変数を「はい」または「いいえ」、「合格」または「不合格」などのカテゴリに分類できるモデルに使用されます。分類モデルはデータのカテゴリを予測するために使用されます。実際の例としては、スパム検出、感情分析、試験のスコアカード予測などが挙げられます。

教師あり学習アルゴリズムには、次のような実生活での非常に実用的な応用例があります。

テキスト分類
スパム検出
天気予報
現在の市場価格に基づいて住宅価格を予測する
株価予測など
顔認識
署名認識
顧客発見

教師なし学習とは何ですか?

教師なし学習は、分類もラベル付けもされていないデータを使用して機械をトレーニングする方法です。つまり、トレーニングデータは提供できず、マシンは独自に学習する必要があります。機械は、データに関する事前情報を与えられなくても、データを分類できる必要があります。

そのアイデアは、コンピューターを大量のさまざまなデータにさらし、そのデータから学習させて、これまで知られていなかった洞察を提供し、隠れたパターンを識別できるようにすることです。したがって、教師なし学習アルゴリズムは必ずしも明確な結果をもたらすわけではありません。代わりに、特定のデータセットの何が異なっているか、何が興味深いかを特定します。

コンピュータは自ら学習するようにプログラムされる必要があります。コンピュータは、構造化データと非構造化データを理解して洞察を提供する必要があります。教師なし学習の正確な説明は次のとおりです。

教師なし機械学習分類

クラスタリングは、最も一般的な教師なし学習手法の 1 つです。クラスタリングの方法では、ラベルのないデータをクラスターと呼ばれる類似のグループに整理します。したがって、クラスターは類似したデータ項目の集合です。ここでの主な目標は、データポイントの類似点を見つけ、類似したデータポイントをクラスターにグループ化することです。
異常検出とは、大部分のデータとは大きく異なる特別な項目、イベント、または観測を識別するプロセスです。データ内の異常値や外れ値を探す理由は、通常、それらが疑わしいためです。異常検出は、銀行詐欺や医療ミスの検出によく使用されます。

教師なし学習アルゴリズムの応用

教師なし学習アルゴリズムの実際的な応用としては、次のようなものがあります。

マルウェア検出
データ入力時の人為的エラーの特定
正確なマーケットバスケット分析等を実施します。
不正行為検出

教師あり学習と教師なし学習はいつ選択すればよいでしょうか?

製造業では、特定のタスクにどの機械学習手法が最適であるかに影響を与える要因が多数あります。さらに、機械学習の問題はそれぞれが固有であるため、どの手法を使用するかを決定するのは複雑なプロセスです。

一般的に、適切な機械学習手法を選択するための良い戦略は次のとおりです。

データを評価します。ラベル付けされているかどうか? 追加のラベル付けをサポートする専門知識はありますか? これは、教師あり学習、教師なし学習、半教師あり学習、または強化学習のどの方法を使用する必要があるかを決定するのに役立ちます。
問題の次元 (機能、属性、または機能の数) に適した利用可能なアルゴリズムを確認します。候補アルゴリズムは、データの全体的な量とその構造に適したものでなければなりません。
同様の問題に適用されたアルゴリズムの種類に関する成功事例を研究します。
目標を定義します。定義された問題は繰り返し発生しますか? アルゴリズムは新しい問題を予測することが期待されますか?

教師あり学習と教師なし学習は、機械学習の分野における重要な概念です。これは機械学習の最初のレッスンとなるはずです。必ず十分に理解してください。

<<: 自動運転や人工知能はあなたの将来の生活にどのような変化をもたらすでしょうか？

>>: 睡眠研究はより優れた AI モデルの作成に役立ちますか?