素晴らしいクラスタリングアルゴリズムがサイエンス誌に掲載されました

素晴らしいクラスタリングアルゴリズムがサイエンス誌に掲載されました

著者 (Alex Rodriguez、Alessandro Laio) は、さまざまな形状のクラスターを識別でき、ハイパーパラメータを簡単に決定できる非常にシンプルでエレガントなクラスタリング アルゴリズムを提案しました。

アルゴリズムのアイデア

このアルゴリズムでは、クラスターの中心が比較的低い局所密度を持ついくつかの点に囲まれており、これらの点は他の高い局所密度を持つ点から遠く離れていると想定しています。まず、局所密度 ρi と高い局所密度の点までの距離 δi という 2 つの値を定義します。

dc はカットオフ距離で、ハイパーパラメータです。したがって、ρi は、ポイント i からの距離が dc 未満のポイントの数に相当します。アルゴリズムは ρi の相対値にのみ敏感なので、dc の選択は比較的堅牢です。推奨されるアプローチは、各ポイントの近傍の平均数がすべてのポイントの 1% ~ 2% になるように dc を選択することです。

最も密度の高いポイントについては、局所的または全体的に極端な密度を持つポイントのみ、隣接するポイント間の間隔が通常よりも大きくなることに注意してください。

クラスタリングプロセス

比較的大きな局所密度 ρi と大きな δi を持つポイントは、クラスターの中心と見なされます。局所密度は小さいが δi が大きいポイントは外れ値です。クラスターの中心を決定した後、他のすべてのポイントは、最も近いクラスターの中心によって表されるクラスターに属します。次に例を示します。

左の図は2次元空間におけるすべての点の分布を示し、右の図はρを水平座標、δを垂直座標として示しています。このような図は決定木と呼ばれます。点1と10のρiとδiはどちらも比較的大きく、クラスターの中心点であることがわかります。点26、27、28のδiも比較的大きいですが、ρiは小さいため外れ値です。

クラスター分析

クラスター分析では、通常、特定のクラスターに割り当てられる各ポイントの信頼性を判断する必要があります。このアルゴリズムでは、まず各クラスターの境界領域、つまりクラスターに割り当てられているが、他のクラスターのポイントとの差が dc 未満のポイントを定義します。次に、各クラスターについて、境界領域内で最もローカル密度が高いポイントを見つけ、そのローカル密度を ρh とします。クラスター内でローカル密度が ρh より大きいすべてのポイントは、クラスター コアの一部であると見なされます (つまり、ポイントをクラスターに割り当てる信頼性が非常に高い)。残りのポイントは、クラスターのハローであると見なされます (つまり、ノイズと見なすことができます)。次に例を示します。

図 A は生成されたデータの確率分布であり、図 B と C はそれぞれ分布から 4000 と 1000 のポイントを生成します。図 D と E はそれぞれ 2 つのデータ グループ B と C の決定木です。両方のデータ グループには、ρi と δi が比較的大きいポイントが 5 つしかないことがわかります。これらのポイントはクラスターの中心です。クラスターの中心を決定した後、各ポイントはさまざまなクラスター (色付きのポイント) またはクラスター ハロー (黒いポイント) に分割されます。図 F は、サンプリングされたポイントの数が増えるにつれて、クラスタリング エラー率が徐々に低下し、アルゴリズムが堅牢であることを示しています。

***さまざまなデータ分布に対するアルゴリズムのクラスタリング効果を示します。非常に優れています。

参考文献:

[1] 密度ピークの高速探索と発見によるクラスタリング。アレックス・ロドリゲス、アレッサンドロ・ライオ

この記事はKemaswill のブログから引用しました

<<:  機械学習アルゴリズム(1):決定木とランダムフォレスト

>>:  プログラマーを夢中にさせるソートアルゴリズムに関するビデオ

ブログ    
ブログ    

推薦する

ChatGPTにはファイル分析や自動検索などの新機能がある。スタートアップ企業の製品は置き換えられるのだろうか?

最近、OpenAIはChatGPT Plusメンバー向けに新しいベータ機能を開始しました。これには主...

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWe...

2021年、人工知能は再び疫病との戦いで役割を果たすだろう

[[344407]] COVID-19パンデミックが世界を席巻する以前から、人工知能(AI)、特にそ...

...

AI技術のアップグレード:2022年に最も人気のある人工知能技術トップ10

AI人工知能技術は、電子商取引、物流、輸送、工業など、多くの業界で応用されています。人工知能は、あ...

音声認識を開発する方法

ディープラーニング技術を用いた自然言語の深い理解は、常に注目されてきました。自分で音楽を調べる必要が...

人工知能トレーナーの秘密を明かす:新しい職業、AIの教師になるのは簡単ではない

[[322342]]現在、人工知能はさまざまな分野でその力を発揮しています。特に、電子商取引サービス...

任意のデータセットに基づいて LLM (大規模言語モデル) ロボットを作成する

今日、偶然Embedchainというウェアハウスを見つけ、とても便利だと思ったので、皆さんとシェアし...

Baiduの新しい論文はGram-CTCを提案:単一システムの音声転写が最高レベルに到達

[[188128]]最近、百度シリコンバレーAI研究所の劉海栄氏、李翔剛氏らは、音声認識の速度と精度...

...

チャットボットの機械学習セキュリティの重要性

人工知能は、大手テクノロジー企業、新興企業、大学の研究チームによって推進されている成長産業です。 A...

...

機械学習に必要な確率論の基礎

この記事を読んでいただければ、確率の基本原理を機械学習に応用できる可能性が 100% あります。機械...