教師なし機械学習の基本ガイド

教師なし機械学習の基本ガイド

[51CTO.com クイック翻訳] 教師なし機械学習と人工知能は、組織のビジネス成長に役立つことは明らかですが、どのように機能するのでしょうか? 市場調査、トレンド予測、その他の用途を効果的にするには、いくつかの重要なガイドラインを理解する必要があります。

私たちは今、デジタル変革の時代に生きていますが、唯一変わらないのは「進化」です。そして、組織が採用したハイテクソリューションがデジタル変革の先駆けとなっています。したがって、技術の進歩が日常のビジネスに完全に浸透したのも不思議ではありません。機械学習、人工知能 (AI)、教師なし機械学習は、組織が市場で競争する方法を変えています。したがって、さまざまな業界における教師なし機械学習の幅広い応用を理解する必要があります。

教師なし機械学習とは何ですか?

ディープラーニングについて知っている人なら、機械学習に対する 2 つのアプローチ、教師あり機械学習と教師なし機械学習について聞いたことがあるかもしれません。

たとえば、IKEA のソファを組み立てるときにどの方法を使用しても、結果は常に同じになります。しかし、他の方法よりも効率的な方法もあります。 IKEA が提供する組み立て説明書を読み、事前に定義された手順に沿って組み立てるのは確かに便利です。ただし、家具の組み立てに熟練した職人であれば、説明書なしでも組み立ては可能です。

機械学習もこの例とほぼ同じです。ユーザーが例として使用できるトレーニング データにラベルを付ける場合、これは教師あり機械学習と呼ばれます。ただし、既存のラベルがなく、キュレーションされたデータセットが必要な場合は、教師なし機械学習と呼ばれます。

教師なし機械学習の基礎

教師あり機械学習とは異なり、教師なし機械学習では人間がモデルを管理しません。教師なし機械学習では、アルゴリズムを使用して、ラベルのないデータセットから結論を導き出します。

したがって、教師なし機械学習アルゴリズムは、情報をほとんど持たないか、結果を予測する方法がないため、教師あり機械学習アルゴリズムよりも複雑です。

教師なし機械学習アルゴリズムは、次の目的で使用されます。

(1)グループまたはクラスターを見つける。

(2)密度推定を行う。

(3)次元削減

全体的に、教師なし機械学習アルゴリズムは、データのビットが指定されていない範囲で機能します。

この点で、教師なし機械学習は、クラスタリングと次元削減という 2 つのアルゴリズム グループに分けられます。

クラスタリング – データ探索

クラスター分析の目的は、類似性の基準に基づいてオブジェクトをクラスターにグループ化することです。クラスタリングと分類の主な違いは、クラスターのリストが明示的に定義されておらず、アルゴリズムの動作中に意味を成すことです。

クラスタリング プロセスは次の段階に分けられます。

  • クラスタリング オブジェクトを選択します。
  • 変数のセットを決定します。
  • オブジェクト間の類似度を計算します。
  • 類似のオブジェクトをクラスターにグループ化します。
  • 結果を表示します。

クラスタリングは、教師なし機械学習で使用される最も単純なアルゴリズムの 1 つです。ただし、データに関する貴重な洞察を得るのに役立ちます。

クラスタリングは、業界を問わず推奨されるグループ化方法です。

  • マーケティングとセールス - 顧客行動を予測します(パーソナライゼーションとターゲティング)。
  • 検索エンジン – 必要な検索結果を提供するために使用されます。
  • 学業 - 生徒の学業成績の進捗状況を監視するために使用されます。

一般的に、クラスタリングは多くの分野で統計データ分析に使用される一般的な手法です。

次元削減 – データの変更

30,000 以上の変数を含むデータセットを取得しようとしたことがありますか? それは困難な作業です。欠損値、エラー、無関係な情報はバランスを崩し、データの解釈を妨げます。

次元削減により、元の情報の意味のある特性を保持しながら、特徴の数を最小限に抑えることができます。

技術的な観点から言えば、トレーニング データ内の入力変数の数を減らすための一連のテクニックを意味します。

教師なし機械学習アルゴリズムの実例

K平均法クラスタリング – ドキュメントクラスタリング、データマイニング

教師なし機械学習の操作では、k-means クラスタリング アルゴリズムが最も一般的に使用されるアルゴリズムです。オブジェクトを、別のクラスターに属するオブジェクトとは異なる類似のクラスターに分割します。

データ マイニングでは、k-means クラスタリングを使用して、観測値を、事前定義された関係を持たない関連観測値に分類します。

データ マイニングに加えて、このツールは次の領域でオンデマンドで使用されます。

  • 市場セグメンテーション;
  • ドキュメントのクラスタリング。
  • 画像セグメンテーション;
  • パターン認識;
  • 保険金詐欺検出等

隠れマルコフモデル – パターン認識、バイオインフォマティクス、データ分析

昨今、テキストのデジタル化、つまり紙のデータをデジタルに変換するソフトウェアの必要性が高まっています。光学文字認識は、画像、音声、ビデオなどのマルチメディア ファイルから文字を認識するために使用できます。特に、隠れマルコフモデルを使用すると、ユーザーはテキストや記号を高い精度で認識できます。

通常、隠れマルコフモデル (HMM) は、最も複雑な機械学習アルゴリズムの 1 つです。これは、観測可能なイベントの進化を識別し、要素をグループ化する統計モデルを指します。これは目に見えないマルコフ連鎖であり、各状態は人間に見える観測値の 1 つを生成します。

この技術は、強化学習、時間的パターン認識、バイオインフォマティクスなどの分野で広く使用されています。このアルゴリズムは、競合するすべての方法よりも効率的であることが示され、主要な処理パラダイムとなりました。

隠れマルコフモデル (HMM) の使用例には以下も含まれます。

  • 計算生物学;
  • データ分析;
  • 遺伝子予測;
  • ジェスチャー認識など

DBSCAN クラスタリング - 市場調査とデータ分析

ノイズベースのアプリケーション 密度ベースの空間クラスタリング (DBSCAN) は、データ マイニングや機械学習で幅広く使用されている一般的なデータ クラスタリング アルゴリズムです。 DBSCAN は、ポイントの数に基づいて、距離方向に互いに近い要素をグループ化します。

一般に、DBSCAN 処理は次の段階で構成されます。

  • この手法では、データセットを複数の次元に分割します。
  • アルゴリズムは、データ要素ごとに次元形状を作成し、その形状内に含まれるデータ ポイントの数を評価します。
  • 図形はクラスターとして扱われます。

DBSCAN の実際の例は次のとおりです。

  • 市場調査;
  • パターン認識;
  • データ分析;
  • 画像処理等

主成分分析 (PCA) - 顔認識および推奨システム

主成分分析 (PCA) は、貴重な情報を保持している変数の数を減らすことで、大規模なデータセットの次元を削減する次元削減アルゴリズムです。すべての教師なし機械学習アルゴリズムの中で、主成分分析 (PCA) は最も洗練された方法ではないかもしれませんが、間違いなく最も重要な方法の 1 つです。

特徴を排除する代わりに、入力変数を特定の方法でグループ化し、最も重要でない変数はスキップされ、最も重要な変数は保持されます。

視覚化ツールとして、主成分分析 (PCA) はプロセスの鳥瞰図を表示するのに適しています。以下の領域にも適用されます。

  • 顔認識;
  • 多変量データ分析;
  • ビデオ推奨システム。
  • 画像圧縮など

T-SNE – 非線形可視化手法

T 分布確率的近傍埋め込みは、視覚化のためだけに使われる別の教師なしランダム化アルゴリズムです。技術的には、これは高次元データセットの視覚化に特に適した次元削減アルゴリズムです。 T-SNE メソッドの主な利点は、非線形であるため、PCA アルゴリズムよりも直感的であることです。したがって、T-SNE はさまざまなデータセットに適用できます。

T-SNE は、音楽分析や複雑な視聴者セグメンテーションから、コンピューター セキュリティ研究、がん研究、バイオインフォマティクスに至るまで、さまざまなアプリケーションでの視覚化に使用されてきました。

特異値分解 (SVD) – レコメンデーション システム

特異値分解 (SVD) は、行列を処理するために広く使用されている効果的な方法です。特異値分解は、行列の SVD 構造の幾何学を示し、利用可能なデータを視覚化するのに役立ちます。

このアルゴリズムは、最小二乗法から画像圧縮、顔認識まで、さまざまな問題を解決するために選択されるツールです。 SVD はデータの顕著な特徴を定義し、それをさらなる処理に適したものにします。優れた SVD の使用例は、ユーザーに関連する製品情報を表示する製品推奨です。

特異値分解は以下にも適用されます。

  • データのノイズを除去します。
  • データセットから特定の種類の情報を取得します (例: 特定の場所にいるすべてのユーザーに関する情報を検索します)。
  • 特定のユーザーに対して推奨を行います(推奨エンジン)。

相関ルール - 市場でのショッピング分析

相関ルールは、教師なし機械学習の中心的な手法の 1 つです。当初は、スーパーマーケットでの典型的な購買パターン、つまりショッピング分析を見つけるために使用されていました。

言い換えれば、関連ルールの目的は、項目が互いにどのように関連しているかを明らかにすることです。結局のところ、それは単純で一般的な市場の公式に行き着きます。つまり、製品 X を購入する人は製品 Y も購入するということです。

したがって、関連ルールは次のようなことができる主要なマーケティング ツールです。

  • 商品の配置を最適化します。
  • カスタマイズされた製品の推奨事項を開発します。
  • プロモーション活動を計画する。
  • 製品計画と価格最適化を改善します。

結論

機械学習は、実用的なビジネス洞察を得るための強力なツールになりました。ただし、機械学習アルゴリズムは多岐にわたるため、教師なし機械学習アルゴリズムがビジネスの一部を自動化するのにどのように役立つかを理解することが重要です。

原題: 教師なし機械学習の重要なガイド、著者: Kayla Matthews

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  脳コンピューターインターフェースは遠隔地の物体を検出するために使用でき、脳に埋め込まれたチップはテレパシーを実現できる。

>>:  顔認識技術と表情認識の最新研究の紹介

ブログ    
ブログ    
ブログ    

推薦する

Transformerの本質的欠陥を解決する:復旦大学らが提案した線形複雑性SOFT

[[437909]] Visual Transformer (ViT) は、パッチ単位の画像トーク...

疫病と戦うための新しい技術!北京で3Dプリント/コピー防護マスクの開発に成功

流行は激しく、科学技術界は全力で流行と戦っています。北京化工大学の楊衛民教授は2月25日、21世紀ビ...

ダイクストラアルゴリズムに関する予備的研究

ダイクストラアルゴリズム (Dijkstra アルゴリズムとも呼ばれます) は、有向グラフ内の単一の...

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?畳み込みニュー...

...

AI開発と倫理におけるリアリズムの役割

人工知能(AI)は、最初のコンピュータが発明されて以来、長い道のりを歩んできました。今日、人工知能は...

EU諸国の4分の1がAIによるサイバーセキュリティ管理を望んでいる

予想外かもしれませんが、消費者のかなりの部分は、サイバーセキュリティを生身のサイバーセキュリティ専門...

人工知能の道のりは長い

「人工知能」は最近、特に資本市場で非常に人気があります。実は、これはすべて予想されたことです。物語を...

民間ドローンの産業応用シナリオに関する簡単な議論

[[357620]]科学技術の発展に伴い、人類は機械工学、材料科学、電子技術、自動制御、コンピュータ...

Deeplearning4j: JVM 向けのディープラーニングと ETL

[[410828]]この記事はWeChatの公開アカウント「Java Architecture M...

...

テクノロジー統合によるバーチャルキャラクターの創造と実践

著者 | 崔昊レビュー | Chonglouまとめこの記事では、パーソナライズされた仮想キャラクター...

GitHub のスターや Kaggle のいいねを公に販売する「ブラックマーケット」がますます露骨になっていませんか?

開発者の世界では、GitHub のスターの数は、プロジェクトが人気があるかどうかを判断するための非常...

階段を登るための最小コストを使用するデータ構造とアルゴリズム

[[443068]]最小限のコストで階段を登るLeetCode の問題へのリンク: https://...