データセットに適したクラスタリングアルゴリズムを選択する方法

データセットに適したクラスタリングアルゴリズムを選択する方法

クラスタリング アルゴリズムを適用するのは、最適なアルゴリズムを選択するよりもはるかに簡単です。 それぞれのタイプには長所と短所があり、整然としたクラスター構造が必要な場合は慎重に検討する必要があります。

データのクラスタリングは、全体的なデータ モデルを正しく配置するための重要なステップです。分析の目的で、情報は共通点に基づいて整理する必要があります。 主な疑問は、どの共通パラメータが最良の結果をもたらすか、そして「最良の」とはどういう意味かということです。

この記事では、最も広く普及しているクラスタリング アルゴリズムとその詳細な説明を紹介します。各方法の特異性に基づいて、そのアプリケーションの使用に関する推奨事項が提供されます。

4つの基本アルゴリズムとその選択方法

クラスタリング モデルに基づいて、アルゴリズムの一般的なカテゴリを 4 つに区別できます。一般的に言えば、アルゴリズムは 100 種類以上ありますが、その人気と応用分野はそれほど広くありません。

データセット全体のオブジェクト間の距離に基づく計算は、接続ベースまたは階層ベースと呼ばれます。アルゴリズムの「方向」に応じて、情報の配列を統合したり、逆に分割したりできます。集約と分割という名前は、この正確な変化から生まれました。最も人気があり、合理的なタイプは凝集型です。凝集型では、最初にデータ ポイントの数を入力し、それらのデータ ポイントを制限に達するまでより大きなクラスターにマージします。

接続性に基づくクラスタリングの最も顕著な例は植物の分類です。データセットの「ツリー」は特定の種から始まり、いくつかの植物「界」で終わります。各界はより小さなクラスター (門、綱、目など) で構成されています。

接続性ベースのアルゴリズムの 1 つを適用すると、クラスターへの明確な分離ではなく、情報の構造を示すデータの樹形図が表示されます。このような特性には利点と欠点の両方があります。アルゴリズムの複雑さが過度になるか、階層がほとんどまたはまったくないデータセットには適用できなくなる可能性があります。パフォーマンスも低下します。繰り返し処理が多いため、処理全体に多くの時間がかかります。最も重要なことは、階層型アルゴリズムを使用して正確な構造を取得することは不可能であるということです。

同時に、カウンターから入力する必要があるデータは、最終結果に大きな影響を与えないデータ ポイントの数、または大まかな測定値である事前設定された距離メトリックになります。

私の経験では、中心体ベースのクラスタリングは、その単純さから最も一般的なモデルです。このモデルの目的は、データセットの各オブジェクトを特定のクラスターに分類することです。クラスターの数 (k) はランダムに選択されますが、これがおそらくこの方法の最大の「弱点」です。このアルゴリズムは、k 最近傍 (kNN) 法に似ているため、機械学習で特に人気があります。

計算プロセスはいくつかのステップで構成されます。まず、入力データと、データセットを分割するクラスターのおおよその数を選択します。クラスターの中心はできるだけ離して配置する必要があります。これにより、結果の精度が向上します。

次に、アルゴリズムはデータセットの各オブジェクトと各クラスター間の距離を計算します。最小座標によって、オブジェクトがどのクラスターに移動されるかが決まります。

その後、すべてのオブジェクト座標の平均に基づいてクラスターの中心が再計算されます。アルゴリズムの最初のステップが繰り返されますが、クラスターの新しい中心が再計算されます。このような反復は、特定の条件が満たされない限り継続されます。たとえば、クラスターの中心が最後の反復以降に移動していないか、大幅に移動していない場合に、アルゴリズムが終了することがあります。

数学的にもコーディング的にもシンプルであるにもかかわらず、k-means には、あらゆる場所で使用できるわけではないという欠点がいくつかあります。これには以下が含まれます:

  • 優先順位は境界ではなくクラスターの中心に設定されるため、各クラスターの端は無視されます。
  • オブジェクトを均等に複数のクラスターに分類できるデータセット構造を作成することはできません。
  • このゲージを指定するには、最適な k 値を推測するか、予備計算を行う必要があります。

一方、期待最大化アルゴリズムは、それらの複雑さを回避しながら、より高い精度を提供します。つまり、各データセット ポイントと指定したすべてのクラスターとの関連付けの確率を計算します。このクラスタリング モデルに使用される主な「ツール」は、データセットのポイントが一般にガウス分布に従うと想定したガウス混合モデル (GMM) です。

k-means アルゴリズムは基本的に EM 原理の簡略化されたバージョンです。これらすべてではクラスターの数を手動で入力する必要があり、これがこの方法が直面する主な問題です。それ以外では、計算原理(GMM または k-means の場合)は単純です。クラスターのおおよその範囲は、新しい反復ごとに徐々に指定されます。

重心ベースのモデルとは異なり、EM アルゴリズムでは、ポイントを 2 つ以上のクラスターに分類できます。各イベントの確率が表示されるだけなので、これをさらに分析するために使用できます。さらに重要なのは、各クラスターの境界が異なるメトリックの楕円体を形成することです。これは、クラスターが視覚的に円として表される k-means とは異なります。ただし、このアルゴリズムは、オブジェクトがガウス分布に従わないデータセットではまったく機能しません。これがこの方法の主な欠点です。実際の測定や観察よりも理論的な問題に適しています。

最終的に、密度ベースのクラスタリングは、モデルの要点、データセットのクラスターへの分割、およびイプシロン パラメーター (「近傍」距離) を入力するカウンターで構成される、データ サイエンティストの間で非公式のお気に入りになりました。したがって、オブジェクトが半径 ε の円 (球) 内に存在する場合、そのオブジェクトはクラスターに関連付けられます。

DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング) アルゴリズムは、各オブジェクトを段階的にチェックし、そのステータスを「確認済み」に変更し、クラスターまたはノイズに分類して、最終的にデータセット全体を処理します。 DBSCAN を使用して決定されたクラスターは任意の形状を持つことができるため、非常に正確です。また、アルゴリズムではクラスターの数を計算する必要はなく、自動的に決定されます。

しかし、DBSCAN のような傑作にも欠点はあります。この方法では、データセットがさまざまな密度のデータ セットで構成されている場合、結果は良くありません。物体が近すぎてイプシロンパラメータを簡単に推定できない場合は、これも選択肢ではありません。

要約すると、間違ったアルゴリズムの選択はありません。一部のアルゴリズムは、特定のデータセット構造に適しているというだけです。最良かつより適切なアルゴリズムを選択するには、その長所、短所、機能を総合的に理解する必要があります。

一部のアルゴリズムは、データセットの仕様に準拠していないなどの理由で、最初から除外される場合があります。繰り返しの作業を避けるために、試行錯誤するのではなく、少し時間をかけて情報を整理し、記憶することができます。

<<:  AIの中心的な難しさの1つ:感情分析の一般的な種類と課題

>>:  AIの新興企業が胡潤富豪リストに名を連ねる:「CVの4人の小さなドラゴン」の創業者3人がリスト入り

ブログ    
ブログ    

推薦する

...

快手が1兆ドル規模のパラメータ推奨ランキングモデルを発表

正確な推奨システム モデルは、多くのインターネット製品の中核的な競争力です。パーソナライズされた推奨...

AI対応データセンターは急速に成長すると予想

企業の人工知能に対する飽くなき需要により、計算集約型の AI アプリケーションを処理するために設計さ...

通信 AI 市場は 2031 年に 388 億ドルに達すると予想されます。5G/6G と AI の統合により、さまざまなメリットがもたらされます。

4G と 5G の世界的な展開は商用サービスの進歩よりも速く、6G は 2030 年までに登場する...

ドローン技術がモバイルIoTの範囲を拡大

無人航空機(口語では「ドローン」と呼ばれる)は、航空業界に無人航空機を導入することで、ライト兄弟の有...

失業は避けられないのでしょうか? AI時代、人類が将来やるべきことは2つだけ

Sinovation Venturesの李開復氏は「2017年中国企業100%年次大会」で講演し、「...

ハリバートンのチーフデータサイエンティスト兼テクニカルフェローがエネルギー業界における AI アプリケーションの現状について語る

エネルギー産業はハイテク主導の産業です。石油・ガス業界では、過酷な条件下で大型機器を使用してさまざま...

...

適切な AI データ ストレージを選択するための 6 つのガイドライン

間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があり...

OpenAIはChatGPTを軍事目的で使用する予定か?国防総省との協力禁止が解除、元グーグルCEO「AIは核爆弾になる」

AIの兵器化?大規模言語モデルの誕生以来、人々はその潜在的な影響について議論し続けています。しかし...

...

ニューラルシンボリックシステム、学際的相互作用、李飛飛と他の16人の学者がAIの未来について議論する

昨年、ニューヨーク大学の心理学および神経科学の教授であるゲイリー・マーカス氏と、ディープラーニングの...

2020 年のトップ 10 テクノロジー トレンド

変化だけが唯一不変です。これは私たちの職業生活にも当てはまります。最近はテクノロジーが非常に急速に発...

産業用AIが製造業に変革をもたらす5つの方法

すべての分野の中で、人工知能は製造業に最も大きな影響を与えており、この変革はまだ始まったばかりです。...