教師なし機械学習の基本ガイド

[51CTO.com クイック翻訳] 教師なし機械学習と人工知能は、組織のビジネス成長に役立つことは明らかですが、どのように機能するのでしょうか? 市場調査、トレンド予測、その他の用途を効果的にするには、いくつかの重要なガイドラインを理解する必要があります。

私たちは今、デジタル変革の時代に生きていますが、唯一変わらないのは「進化」です。そして、組織が採用したハイテクソリューションがデジタル変革の先駆けとなっています。したがって、技術の進歩が日常のビジネスに完全に浸透したのも不思議ではありません。機械学習、人工知能 (AI)、教師なし機械学習は、組織が市場で競争する方法を変えています。したがって、さまざまな業界における教師なし機械学習の幅広い応用を理解する必要があります。

教師なし機械学習とは何ですか?

ディープラーニングについて知っている人なら、機械学習に対する 2 つのアプローチ、教師あり機械学習と教師なし機械学習について聞いたことがあるかもしれません。

たとえば、IKEA のソファを組み立てるときにどの方法を使用しても、結果は常に同じになります。しかし、他の方法よりも効率的な方法もあります。 IKEA が提供する組み立て説明書を読み、事前に定義された手順に沿って組み立てるのは確かに便利です。ただし、家具の組み立てに熟練した職人であれば、説明書なしでも組み立ては可能です。

機械学習もこの例とほぼ同じです。ユーザーが例として使用できるトレーニングデータにラベルを付ける場合、これは教師あり機械学習と呼ばれます。ただし、既存のラベルがなく、キュレーションされたデータセットが必要な場合は、教師なし機械学習と呼ばれます。

教師なし機械学習の基礎

教師あり機械学習とは異なり、教師なし機械学習では人間がモデルを管理しません。教師なし機械学習では、アルゴリズムを使用して、ラベルのないデータセットから結論を導き出します。

したがって、教師なし機械学習アルゴリズムは、情報をほとんど持たないか、結果を予測する方法がないため、教師あり機械学習アルゴリズムよりも複雑です。

教師なし機械学習アルゴリズムは、次の目的で使用されます。

（１）グループまたはクラスターを見つける。

（２）密度推定を行う。

（３）次元削減

全体的に、教師なし機械学習アルゴリズムは、データのビットが指定されていない範囲で機能します。

この点で、教師なし機械学習は、クラスタリングと次元削減という 2 つのアルゴリズムグループに分けられます。

クラスタリング – データ探索

クラスター分析の目的は、類似性の基準に基づいてオブジェクトをクラスターにグループ化することです。クラスタリングと分類の主な違いは、クラスターのリストが明示的に定義されておらず、アルゴリズムの動作中に意味を成すことです。

クラスタリングプロセスは次の段階に分けられます。

クラスタリングオブジェクトを選択します。
変数のセットを決定します。
オブジェクト間の類似度を計算します。
類似のオブジェクトをクラスターにグループ化します。
結果を表示します。

クラスタリングは、教師なし機械学習で使用される最も単純なアルゴリズムの 1 つです。ただし、データに関する貴重な洞察を得るのに役立ちます。

クラスタリングは、業界を問わず推奨されるグループ化方法です。

マーケティングとセールス - 顧客行動を予測します（パーソナライゼーションとターゲティング）。
検索エンジン – 必要な検索結果を提供するために使用されます。
学業 - 生徒の学業成績の進捗状況を監視するために使用されます。

一般的に、クラスタリングは多くの分野で統計データ分析に使用される一般的な手法です。

次元削減 – データの変更

30,000 以上の変数を含むデータセットを取得しようとしたことがありますか? それは困難な作業です。欠損値、エラー、無関係な情報はバランスを崩し、データの解釈を妨げます。

次元削減により、元の情報の意味のある特性を保持しながら、特徴の数を最小限に抑えることができます。

技術的な観点から言えば、トレーニングデータ内の入力変数の数を減らすための一連のテクニックを意味します。

教師なし機械学習アルゴリズムの実例

K平均法クラスタリング – ドキュメントクラスタリング、データマイニング

教師なし機械学習の操作では、k-means クラスタリングアルゴリズムが最も一般的に使用されるアルゴリズムです。オブジェクトを、別のクラスターに属するオブジェクトとは異なる類似のクラスターに分割します。

データマイニングでは、k-means クラスタリングを使用して、観測値を、事前定義された関係を持たない関連観測値に分類します。

データマイニングに加えて、このツールは次の領域でオンデマンドで使用されます。

市場セグメンテーション;
ドキュメントのクラスタリング。
画像セグメンテーション;
パターン認識;
保険金詐欺検出等

隠れマルコフモデル – パターン認識、バイオインフォマティクス、データ分析

昨今、テキストのデジタル化、つまり紙のデータをデジタルに変換するソフトウェアの必要性が高まっています。光学文字認識は、画像、音声、ビデオなどのマルチメディアファイルから文字を認識するために使用できます。特に、隠れマルコフモデルを使用すると、ユーザーはテキストや記号を高い精度で認識できます。

通常、隠れマルコフモデル (HMM) は、最も複雑な機械学習アルゴリズムの 1 つです。これは、観測可能なイベントの進化を識別し、要素をグループ化する統計モデルを指します。これは目に見えないマルコフ連鎖であり、各状態は人間に見える観測値の 1 つを生成します。

この技術は、強化学習、時間的パターン認識、バイオインフォマティクスなどの分野で広く使用されています。このアルゴリズムは、競合するすべての方法よりも効率的であることが示され、主要な処理パラダイムとなりました。

隠れマルコフモデル (HMM) の使用例には以下も含まれます。

計算生物学;
データ分析;
遺伝子予測;
ジェスチャー認識など

DBSCAN クラスタリング - 市場調査とデータ分析

ノイズベースのアプリケーション密度ベースの空間クラスタリング (DBSCAN) は、データマイニングや機械学習で幅広く使用されている一般的なデータクラスタリングアルゴリズムです。 DBSCAN は、ポイントの数に基づいて、距離方向に互いに近い要素をグループ化します。

一般に、DBSCAN 処理は次の段階で構成されます。

この手法では、データセットを複数の次元に分割します。
アルゴリズムは、データ要素ごとに次元形状を作成し、その形状内に含まれるデータポイントの数を評価します。
図形はクラスターとして扱われます。

DBSCAN の実際の例は次のとおりです。

市場調査;
パターン認識;
データ分析;
画像処理等

主成分分析 (PCA) - 顔認識および推奨システム

主成分分析 (PCA) は、貴重な情報を保持している変数の数を減らすことで、大規模なデータセットの次元を削減する次元削減アルゴリズムです。すべての教師なし機械学習アルゴリズムの中で、主成分分析 (PCA) は最も洗練された方法ではないかもしれませんが、間違いなく最も重要な方法の 1 つです。

特徴を排除する代わりに、入力変数を特定の方法でグループ化し、最も重要でない変数はスキップされ、最も重要な変数は保持されます。

視覚化ツールとして、主成分分析 (PCA) はプロセスの鳥瞰図を表示するのに適しています。以下の領域にも適用されます。

顔認識;
多変量データ分析;
ビデオ推奨システム。
画像圧縮など

T-SNE – 非線形可視化手法

T 分布確率的近傍埋め込みは、視覚化のためだけに使われる別の教師なしランダム化アルゴリズムです。技術的には、これは高次元データセットの視覚化に特に適した次元削減アルゴリズムです。 T-SNE メソッドの主な利点は、非線形であるため、PCA アルゴリズムよりも直感的であることです。したがって、T-SNE はさまざまなデータセットに適用できます。

T-SNE は、音楽分析や複雑な視聴者セグメンテーションから、コンピューターセキュリティ研究、がん研究、バイオインフォマティクスに至るまで、さまざまなアプリケーションでの視覚化に使用されてきました。

特異値分解 (SVD) – レコメンデーションシステム

特異値分解 (SVD) は、行列を処理するために広く使用されている効果的な方法です。特異値分解は、行列の SVD 構造の幾何学を示し、利用可能なデータを視覚化するのに役立ちます。

このアルゴリズムは、最小二乗法から画像圧縮、顔認識まで、さまざまな問題を解決するために選択されるツールです。 SVD はデータの顕著な特徴を定義し、それをさらなる処理に適したものにします。優れた SVD の使用例は、ユーザーに関連する製品情報を表示する製品推奨です。

特異値分解は以下にも適用されます。