1. クラスタリングの基本概念 1.1 定義 クラスタリングはデータマイニングにおける概念であり、特定の基準(距離など)に従ってデータセットを異なるクラスまたはクラスターに分割し、同じクラスター内のデータオブジェクトの類似性が最大になり、異なるクラスター内のデータオブジェクトの相違が最大になるようにします。つまり、クラスタリング後、同じカテゴリのデータは可能な限りクラスタリングされ、異なるカテゴリのデータは可能な限り分離されます。 1.2 クラスタリングと分類の違い クラスタリングとは、簡単に言えば、類似するものをグループ化することです。クラスタリングを行う際、特定のカテゴリが何であるかは気にしません。私たちの目標は、類似するものをグループ化することだけです。したがって、クラスタリング アルゴリズムは通常、類似性の計算方法を知っていれば動作を開始できるため、クラスタリングでは通常、学習にトレーニング データを使用する必要はなく、機械学習ではこれを教師なし学習と呼びます。 分類。分類器の場合、通常は「これは特定のカテゴリに分類されます」などの例をいくつか伝える必要があります。理想的には、分類器は取得したトレーニング セットから「学習」し、未知のデータを分類する能力を持つようになります。トレーニング データを提供するこのプロセスは、通常、教師あり学習と呼ばれます。 1.3 クラスタリングプロセス
1.4 クラスタリングアルゴリズムの品質を測定する基準
2. クラスタリング手法の分類 主に、階層型クラスタリングアルゴリズム、パーティション型クラスタリングアルゴリズム、密度ベースクラスタリングアルゴリズム、グリッドベースクラスタリングアルゴリズム、モデルベースクラスタリングアルゴリズムなどに分けられます。 2.1 階層的クラスタリングアルゴリズム ツリー クラスタリング アルゴリズムとも呼ばれ、階層構造を通じてデータを繰り返し分割または集約します。代表的なものとしては、BIRCH アルゴリズム、CURE アルゴリズム、CHAMELEON アルゴリズム、シーケンス データ大まかなクラスタリング アルゴリズム、グループ間平均アルゴリズム、最遠近傍アルゴリズム、最近傍アルゴリズムなどがあります。 典型的な凝集型階層的クラスタリング: 各オブジェクトは最初にクラスターと見なされ、その後、すべてのオブジェクトが 1 つのクラスターに含まれるか、終了条件が満たされるまで、これらのアトミック クラスターはより大きなクラスターにマージされます。 アルゴリズムフロー:
2.2 パーティションクラスタリングアルゴリズム クラスターの数またはクラスター中心を事前に指定し、反復を繰り返すことで目的関数の誤差値を徐々に減らしていき、収束させて最終結果を得ます。 K-means、K-modes-Huang、K-means-CP、MDS_CLUSTER、特徴重み付けファジークラスタリング、CLARANS など。 古典的な K-means アルゴリズムのプロセス:
2.3 モデルベースのクラスタリングアルゴリズム 各クラスターにはモデルが想定され、特定のモデルに最もよく適合するデータが検索されます。同じ「クラス」のデータは同じ確率分布に属します。つまり、データは基礎となる確率分布に従って生成されると想定されます。主に統計モデルに基づく方法とニューラルネットワークモデルに基づく方法、特に確率モデルに基づく方法があります。モデルベースのアルゴリズムでは、データ ポイントの空間分布を反映する密度関数を構築することでクラスターを特定できます。モデルベースのクラスタリングは、特定のデータと何らかのデータ モデル間の適合性を最適化しようとします。 SOM ニューラル ネットワーク アルゴリズム: このアルゴリズムは、入力オブジェクトに何らかの位相構造または秩序があると仮定し、入力空間 (n 次元) から出力平面 (2 次元) への次元削減マッピングを実現します。このマッピングは位相特徴を保存する特性があり、実際の脳の処理と強い理論的つながりがあります。 SOM ネットワークは入力層と出力層で構成されます。入力層は高次元の入力ベクトルに対応し、出力層は 2 次元グリッド上に編成された一連の順序付けられたノードで構成されます。入力ノードと出力ノードは重みベクトルによって接続されます。学習プロセス中に、その出力層ユニットとの距離が最短となるユニット、つまり勝利ユニットが見つかり、それが更新されます。同時に、出力ノードが入力ベクトルのトポロジ特性を維持するように、隣接領域の重みが更新されます。 アルゴリズムフロー:
2.4 密度ベースのクラスタリングアルゴリズム 主なアイデア: 近傍の密度(オブジェクトまたはデータポイントの数)が一定の閾値を超えている限り、クラスタリングは継続されます。 不規則な形状のクラスタリング問題を解決するのに優れており、空間情報処理、SGC、GCHL、DBSCAN アルゴリズム、OPTICS アルゴリズム、DENCLUE アルゴリズムなどで広く使用されています。 DBスキャン: 集中したエリアでより効果的です。任意の形状のクラスターを発見するために、このタイプの方法では、クラスターをデータ空間内の低密度エリアで区切られた密なオブジェクトエリアと見なします。これは、高密度の接続エリアに基づく密度ベースのクラスタリング方法です。このアルゴリズムは、十分に高い密度を持つエリアをクラスターに分割し、ノイズの多い空間データ内の任意の形状のクラスターを発見します。 2.5 グリッドベースクラスタリングアルゴリズム グリッドベースの方法では、オブジェクト空間を有限数のセルに量子化し、グリッド構造を形成します。すべてのクラスタリング操作は、このグリッド構造 (つまり、量子化された空間) 上で実行されます。この方法の主な利点は、データ オブジェクトの数に依存せず、量子化された空間の各次元のセルの数のみに依存する高速処理速度です。ただし、アルゴリズムの効率が向上すると、クラスタリング結果の精度が低下します。密度ベースのアルゴリズムと組み合わせて使用されることが多いです。 代表的なアルゴリズムとしては、STING アルゴリズム、CLIQUE アルゴリズム、WAVE-CLUSTER アルゴリズムなどがあります。 2.6 新しい開発手法 制約ベースの方法: 現実世界のクラスタリング問題には、複数の制約が存在する場合が多くありますが、この手法では、対応する制約を正確に表現できず、制約知識を推論に有効活用できず、動的制約を効果的に活用できないため、広く普及・適用されていません。ここでの制約は、個々のオブジェクトに対する制約、またはクラスタリング パラメータに対する制約であり、どちらも関連分野の経験的知識から得られます。この方法の重要な応用は、2 次元空間データを障害物データとクラスタリングすることです。 COD (障害物距離によるクラスタリング) は、この種の問題に対処するための典型的なアルゴリズムです。その主な考え方は、一般的なユークリッド距離の代わりに 2 点間の障害物距離を使用して、それらの間の最小距離を計算することです。 ファジーベースのクラスタリング手法: ファジー集合理論に基づくクラスタリング手法では、サンプルは一定の確率で特定のクラスに属します。代表的なものとしては、目的関数に基づくファジークラスタリング法、類似関係とファジー関係に基づく方法、ファジー同値関係に基づく推移閉包法、ファジーグラフ理論に基づく最小全域木法、データセットの凸分解、動的計画法、識別不可能な関係に基づく方法などがあります。 FCM ファジー クラスタリング アルゴリズムのプロセス:
粒度ベースのクラスタリング手法: 粒子サイズの原理に基づくと、研究はまだ不完全です。 量子クラスタリング: 物理学における量子のメカニズムと特性にヒントを得た量子理論は、クラスタリングが初期値に依存し、カテゴリの数を指定する必要があるという問題を解決するために使用できます。良い例としては、関連する点のポットスピンと統計メカニズムに基づく量子クラスタリングモデルが挙げられます。クラスタリング問題を物理システムとして扱います。また、多くの例から、このアルゴリズムは、従来のクラスタリング アルゴリズムでは解決できないいくつかのクラスタリング問題に対して、比較的満足のいく結果を得ていることがわかります。 カーネルクラスタリング: カーネル クラスタリング メソッドは、サンプル機能の最適化プロセスを追加し、Mercer カーネルを使用して入力空間内のサンプルを高次元機能空間にマッピングし、機能空間内でクラスタリングを実行します。カーネル クラスタリング法は汎用性が高く、パフォーマンスの面では従来のクラスタリング アルゴリズムを上回ります。非線形マッピングにより有用な特徴をより適切に区別、抽出、増幅できるため、より正確なクラスタリングが実現します。同時に、アルゴリズムの収束も速くなります。従来のクラスタリング アルゴリズムが失敗した場合でも、カーネル クラスタリング アルゴリズムは正しいクラスタリングを取得できます。代表的なアルゴリズムとしては、SVDD アルゴリズムや SVC アルゴリズムなどがあります。 スペクトルクラスタリング: まず、与えられたサンプルデータセットに従って、ペアになったデータポイントの類似性を記述する類似性行列が定義され、行列の固有値と固有ベクトルが計算されます。次に、異なるデータポイントをクラスタ化するために適切な固有ベクトルが選択されます。スペクトルクラスタリングアルゴリズムは、もともとコンピュータービジョンやVLSI設計などの分野で使用されていましたが、最近になって機械学習でも使用され始め、急速に国際的に機械学習分野の研究のホットスポットとなっています。 スペクトル クラスタリング アルゴリズムは、グラフ理論のスペクトル グラフ理論に基づいています。その本質は、クラスタリング問題をグラフの最適分割問題に変換することです。これは、ポイントツーポイント クラスタリング アルゴリズムです。 クラスタリング アルゴリズムの簡単な分類アーキテクチャ図 一般的なアルゴリズム機能の比較表 3. 簡単なコード例 4. 学習教材 クラスタリング アルゴリズムは、機械学習またはデータ マイニングの分野に属します。その範囲は比較的狭く、一般的には機械学習の一部、またはデータ マイニングの分野のアルゴリズムの一種と見なされています。機械学習と組み合わせて学習できます。 Scikit Learn: NumPy と SciPy をベースにした Python 用の機械学習ライブラリ。 スタンフォード機械学習: スタンフォードの機械学習コースは、Coursera で視聴できます。このコースは Andrew Ng が指導しており、説明が非常にわかりやすいです。 データ サイエンスと機械学習のリソースのリスト: 専門家によってまとめられた学習リソースのリスト。 |
<<: Node.jsを使用してテキストコンテンツをセグメント化し、キーワードを抽出する
>>: いつ表面的に調べ、いつ深く掘り下げるべきか - 機械学習は1ページで説明できるものではありません
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
昨年 6 月に Google Brain チームが発表した 43 ページの論文「Scaling Vi...
「2018年中国人工知能商業上陸研究報告」によると、過去1年間、業界は人工知能に大きな期待を寄せ、...
ニューラルネットワークは人間の脳を模倣するために開発されました。まだ実現されていないものの、ニューラ...
この学習ロードマップは、人工知能分野のほぼすべてのコンテンツを網羅しています。マウスをクリックするだ...
Alpha GO が人間の囲碁プレイヤーに勝利して以来、AI はビジネス界全体で最もホットな用語に...
エッジコンピューティングは最近ホットな話題です。近年最もエキサイティングな技術革新として称賛され、そ...
機械学習は、データセットに基づいて予測モデルを構築し、重要な意思決定に使用できる有用な回答を提供する...
イーロン・マスク氏は、わずか5年で人間の言語を無意味にすることができる技術に取り組んでいると述べてい...
MNIST 認識の精度は 100% に達しましたか?最近、プレプリントプラットフォームarXivに掲...
P/NP 問題は、計算複雑性の分野における未解決の問題です。人々は、「すべての計算問題を妥当な時間内...
翻訳 | 江凡百理子杰樹校正 | ロリン最新の KDnuggets 調査では、データ サイエンティス...