機械学習：教師あり学習と教師なし学習の違いは何ですか？

機械学習は、例と経験を通じてコンピューターにタスクの実行を教える人工知能のサブセットであり、研究開発のホットな分野です。私たちが日常的に使用する多くのアプリケーションでは、AI アシスタント、Web 検索、機械翻訳など、機械学習アルゴリズムが使用されています。

[[328539]]

ソーシャルメディアのニュースフィードは機械学習アルゴリズムによって強化されています。表示されるおすすめ動画は機械学習モデルの結果です。 Spotify の Discover Weekly は、機械学習アルゴリズムの力を活用して、ユーザーの好みに合わせた曲のリストを作成します。

しかし、機械学習にはさまざまな種類があります。この記事では、機械学習アルゴリズムの 2 つの主要なカテゴリである教師あり学習と教師なし学習について説明します。各サブセットは、さまざまなタスクに適したさまざまなアルゴリズムで構成されています。

機械学習に関する簡単なメモ

教師あり学習と教師なし学習について詳しく説明する前に、まず機械学習とは何かを理解しましょう。最も単純な形では、今日の AI システムは入力を出力に変換します。たとえば、画像分類器は画像またはビデオフレームを入力として受け取り、画像に含まれるオブジェクトの種類を出力します。不正検出アルゴリズムは支払いデータを入力として受け取り、取引が不正である可能性を出力します。チェスをプレイする AI は、盤上の現在の状態を入力として受け取り、次の動きを出力します。

シンボリック人工知能と呼ばれるインテリジェントシステムを開発するための従来のアプローチでは、プログラマーが入力を出力にマッピングするルールを明示的に指定する必要があります。多くの利点があるにもかかわらず、シンボリック AI は、コンピュータービジョン、音声認識、自然言語処理など、さまざまな形式で入力が行われる分野では使用が制限されています。

対照的に、機械学習は動作の開発に異なるアプローチを使用します。 ML システムを作成する場合、開発者は一般的な構造を作成し、多くの例でそれをトレーニングします。これらの例としては、対応する画像を含む写真、チェスのゲームデータ、顧客が購入したアイテム、ユーザーが聴いた曲、または AI モデルが解決しようとしている問題に関連するその他のデータが挙げられます。トレーニングデータを分析した後、機械学習アルゴリズムは新しい入力データを処理できるように内部パラメータを調整します。

教師あり学習

ロジスティック回帰は、入力をさまざまなクラスに分類できる教師あり機械学習アルゴリズムです。

人工知能のニュースをフォローしている方なら、AI アルゴリズムには人間がラベル付けしたサンプルが大量に必要だということを聞いたことがあるでしょう。これらのストーリーは、機械学習アルゴリズムのより一般的なカテゴリである教師あり学習について言及しています。教師あり機械学習は、入力データの結果がわかっている場合に役立ちます。猫、犬、馬の画像を検出できる画像分類機械学習アルゴリズムを作成したいとします。

AI モデルをトレーニングするには、猫、犬、馬の写真の大規模なデータセットを収集する必要があります。しかし、それらを機械学習アルゴリズムに入力する前に、それぞれのクラスの名前で注釈を付ける必要があります。注釈には、ファイル命名規則を使用して各クラスの画像を個別のフォルダーに配置したり、画像ファイルにメタデータを添付したりすることが含まれます。これは、AI の搾取工場に関する話でよく取り上げられる、面倒な手作業です。

データにラベルが付けられると、畳み込みニューラルネットワークやサポートベクターマシンなどの機械学習アルゴリズムがサンプルを処理し、各画像を正しいカテゴリにマッピングする数学モデルを開発します。 AI モデルが十分な数のラベル付きサンプルでトレーニングされると、猫、犬、馬などを含む新しい画像カテゴリを正確に検出できるようになります。

教師あり機械学習は、分類と回帰という 2 種類の問題を解決します。上記の例は、機械学習モデルが入力を特定のバケットまたはカテゴリに配置する必要がある分類問題です。分類問題のもう 1 つの例は音声認識です。

回帰機械学習モデルは特定のカテゴリに限定されません。顧客が製品に支払う金額や明日雨が降る確率など、連続した無限の値を持つことができます。

一般的な教師あり学習アルゴリズムには次のようなものがあります。

線形回帰とロジスティック回帰
ナイーブベイズ
サポートベクターマシン
決定木とランダムフォレスト
人工ニューラルネットワーク
教師なし学習

教師なし機械学習アルゴリズムは、共通の特徴に基づいてデータをクラスターに分割できる。

あなたが何千もの顧客販売記録を持つ電子商取引小売事業のオーナーだとしましょう。どの顧客に共通の購入習慣があるかを調べ、その情報を活用して顧客に対して適切な提案を行い、アップセルポリシーを改善したいと考えています。問題は、顧客を分類するための定義済みのカテゴリがないことです。したがって、顧客を分類するために教師あり機械学習モデルをトレーニングすることはできません。

これはクラスタリングの問題であり、主に教師なし機械学習で使用されます。教師あり学習とは異なり、教師なし機械学習ではラベル付きデータは必要ありません。トレーニング例を詳細に調べ、共通の特性に基づいてカテゴリにグループ化します。トレーニング済みの教師なし機械学習アルゴリズムにより、顧客が関連するクラスターにグループ化されます。これにより、クラスター内の他のユーザーと共有している好みに基づいて、顧客が購入する製品を予測できるようになります。

K-means は、よく知られている教師なしクラスタリング機械学習アルゴリズムです。 k-means を使用する際の課題の 1 つは、データをいくつのクラスターに分割するかを知ることです。クラスターが少なすぎると、異なるデータが一緒に詰め込まれ、クラスターが多すぎると、モデルが複雑になり、不正確になります。クラスタリングに加えて、教師なし学習では次元削減も実行できます。データセットに含まれる特徴が多すぎる場合は、次元削減を使用できます。顧客に関する情報のテーブルがあり、そのテーブルに 100 個の列があるとします。顧客に関する大量のデータを持っているとしたら、興味深いかもしれません。しかし、実際はそうではありません。

データ内の特徴の数が増えると、正確な機械学習モデルをトレーニングするために、より大きなサンプルセットも必要になります。おそらく、100 列のモデルをトレーニングするのに十分なサンプルがありません。機能が多すぎると、過剰適合の可能性も高まります。つまり、AI モデルはトレーニングデータでは適切に機能しますが、他のデータでは適切に機能しなくなります。

教師なし機械学習アルゴリズムはデータを分析し、貴重な洞察を失うことなくモデルを簡素化するために削除できる無関係な特徴を見つけます。たとえば、顧客テーブルの場合、次元削減アルゴリズムを実行すると、顧客の年齢と自宅住所に関連する特徴にはほとんど相関関係がないため、削除できることがわかります。

主成分分析 (PCA) は、次元削減のための一般的な機械学習アルゴリズムです。一部のセキュリティアナリストは、組織のネットワーク内での悪意のあるアクティビティを特定するために、異常検出に教師なし機械学習も使用します。

教師なし学習の利点の 1 つは、教師あり学習で必要となる面倒なデータラベル付けプロセスが不要であることです。しかし、そのトレードオフとして、そのパフォーマンスの有効性を評価することも非常に困難です。対照的に、教師あり学習アルゴリズムの精度は、その出力をテストデータの実際のラベルと比較することによって簡単に測定できます。

<<: オブジェクトストレージがAIと機械学習に適している3つの理由

>>: 機械学習の7つの大罪