データセットに適したクラスタリングアルゴリズムを選択する方法

データセットに適したクラスタリングアルゴリズムを選択する方法

クラスタリング アルゴリズムを適用するのは、最適なアルゴリズムを選択するよりもはるかに簡単です。 それぞれのタイプには長所と短所があり、整然としたクラスター構造が必要な場合は慎重に検討する必要があります。

データのクラスタリングは、全体的なデータ モデルを正しく配置するための重要なステップです。分析の目的で、情報は共通点に基づいて整理する必要があります。 主な疑問は、どの共通パラメータが最良の結果をもたらすか、そして「最良の」とはどういう意味かということです。

この記事では、最も広く普及しているクラスタリング アルゴリズムとその詳細な説明を紹介します。各方法の特異性に基づいて、そのアプリケーションの使用に関する推奨事項が提供されます。

4つの基本アルゴリズムとその選択方法

クラスタリング モデルに基づいて、アルゴリズムの一般的なカテゴリを 4 つに区別できます。一般的に言えば、アルゴリズムは 100 種類以上ありますが、その人気と応用分野はそれほど広くありません。

データセット全体のオブジェクト間の距離に基づく計算は、接続ベースまたは階層ベースと呼ばれます。アルゴリズムの「方向」に応じて、情報の配列を統合したり、逆に分割したりできます。集約と分割という名前は、この正確な変化から生まれました。最も人気があり、合理的なタイプは凝集型です。凝集型では、最初にデータ ポイントの数を入力し、それらのデータ ポイントを制限に達するまでより大きなクラスターにマージします。

接続性に基づくクラスタリングの最も顕著な例は植物の分類です。データセットの「ツリー」は特定の種から始まり、いくつかの植物「界」で終わります。各界はより小さなクラスター (門、綱、目など) で構成されています。

接続性ベースのアルゴリズムの 1 つを適用すると、クラスターへの明確な分離ではなく、情報の構造を示すデータの樹形図が表示されます。このような特性には利点と欠点の両方があります。アルゴリズムの複雑さが過度になるか、階層がほとんどまたはまったくないデータセットには適用できなくなる可能性があります。パフォーマンスも低下します。繰り返し処理が多いため、処理全体に多くの時間がかかります。最も重要なことは、階層型アルゴリズムを使用して正確な構造を取得することは不可能であるということです。

同時に、カウンターから入力する必要があるデータは、最終結果に大きな影響を与えないデータ ポイントの数、または大まかな測定値である事前設定された距離メトリックになります。

私の経験では、中心体ベースのクラスタリングは、その単純さから最も一般的なモデルです。このモデルの目的は、データセットの各オブジェクトを特定のクラスターに分類することです。クラスターの数 (k) はランダムに選択されますが、これがおそらくこの方法の最大の「弱点」です。このアルゴリズムは、k 最近傍 (kNN) 法に似ているため、機械学習で特に人気があります。

計算プロセスはいくつかのステップで構成されます。まず、入力データと、データセットを分割するクラスターのおおよその数を選択します。クラスターの中心はできるだけ離して配置する必要があります。これにより、結果の精度が向上します。

次に、アルゴリズムはデータセットの各オブジェクトと各クラスター間の距離を計算します。最小座標によって、オブジェクトがどのクラスターに移動されるかが決まります。

その後、すべてのオブジェクト座標の平均に基づいてクラスターの中心が再計算されます。アルゴリズムの最初のステップが繰り返されますが、クラスターの新しい中心が再計算されます。このような反復は、特定の条件が満たされない限り継続されます。たとえば、クラスターの中心が最後の反復以降に移動していないか、大幅に移動していない場合に、アルゴリズムが終了することがあります。

数学的にもコーディング的にもシンプルであるにもかかわらず、k-means には、あらゆる場所で使用できるわけではないという欠点がいくつかあります。これには以下が含まれます:

  • 優先順位は境界ではなくクラスターの中心に設定されるため、各クラスターの端は無視されます。
  • オブジェクトを均等に複数のクラスターに分類できるデータセット構造を作成することはできません。
  • このゲージを指定するには、最適な k 値を推測するか、予備計算を行う必要があります。

一方、期待最大化アルゴリズムは、それらの複雑さを回避しながら、より高い精度を提供します。つまり、各データセット ポイントと指定したすべてのクラスターとの関連付けの確率を計算します。このクラスタリング モデルに使用される主な「ツール」は、データセットのポイントが一般にガウス分布に従うと想定したガウス混合モデル (GMM) です。

k-means アルゴリズムは基本的に EM 原理の簡略化されたバージョンです。これらすべてではクラスターの数を手動で入力する必要があり、これがこの方法が直面する主な問題です。それ以外では、計算原理(GMM または k-means の場合)は単純です。クラスターのおおよその範囲は、新しい反復ごとに徐々に指定されます。

重心ベースのモデルとは異なり、EM アルゴリズムでは、ポイントを 2 つ以上のクラスターに分類できます。各イベントの確率が表示されるだけなので、これをさらに分析するために使用できます。さらに重要なのは、各クラスターの境界が異なるメトリックの楕円体を形成することです。これは、クラスターが視覚的に円として表される k-means とは異なります。ただし、このアルゴリズムは、オブジェクトがガウス分布に従わないデータセットではまったく機能しません。これがこの方法の主な欠点です。実際の測定や観察よりも理論的な問題に適しています。

最終的に、密度ベースのクラスタリングは、モデルの要点、データセットのクラスターへの分割、およびイプシロン パラメーター (「近傍」距離) を入力するカウンターで構成される、データ サイエンティストの間で非公式のお気に入りになりました。したがって、オブジェクトが半径 ε の円 (球) 内に存在する場合、そのオブジェクトはクラスターに関連付けられます。

DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング) アルゴリズムは、各オブジェクトを段階的にチェックし、そのステータスを「確認済み」に変更し、クラスターまたはノイズに分類して、最終的にデータセット全体を処理します。 DBSCAN を使用して決定されたクラスターは任意の形状を持つことができるため、非常に正確です。また、アルゴリズムではクラスターの数を計算する必要はなく、自動的に決定されます。

しかし、DBSCAN のような傑作にも欠点はあります。この方法では、データセットがさまざまな密度のデータ セットで構成されている場合、結果は良くありません。物体が近すぎてイプシロンパラメータを簡単に推定できない場合は、これも選択肢ではありません。

要約すると、間違ったアルゴリズムの選択はありません。一部のアルゴリズムは、特定のデータセット構造に適しているというだけです。最良かつより適切なアルゴリズムを選択するには、その長所、短所、機能を総合的に理解する必要があります。

一部のアルゴリズムは、データセットの仕様に準拠していないなどの理由で、最初から除外される場合があります。繰り返しの作業を避けるために、試行錯誤するのではなく、少し時間をかけて情報を整理し、記憶することができます。

<<:  AIの中心的な難しさの1つ:感情分析の一般的な種類と課題

>>:  AIの新興企業が胡潤富豪リストに名を連ねる:「CVの4人の小さなドラゴン」の創業者3人がリスト入り

ブログ    

推薦する

インテリジェント PDU について...

専門的な配電設備として、PDU は基本型とインテリジェント型の 2 つのタイプに分けられます。インテ...

RELX: 回答者の95%がAI人材の採用は課題であると考えている

海外メディアは、情報分析プロバイダーRELXの新しいレポートによると、回答者の95%が人工知能の人材...

...

あなたは人工知能の前で「透明な人」ですか?

プライバシーがないと感じる人が増えているのは紛れもない事実です。最も直接的な例は、買い物をしたい場合...

大型モデル全般において中国と米国の差を縮めるにはどうすればいいでしょうか? 全国人民代表大会でその答えが分かった

「一般的な大きなモデルは国家の運命をめぐる闘争に関連している」... 「人工知能+」が政府活動報告に...

「自然言語処理」とは何ですか? 具体的に何を「処理」するのですか?

[51CTO.com からのオリジナル記事] 「自然言語処理」(NLP) は、近年テクノロジー コ...

...

OpenAI、超知能AIの制御に関する中核的な技術的課題に取り組むため新チームを結成

7月7日、OpenAIは、共同設立者で主任科学者のイリヤ・スツケバー氏とアラインメント責任者のヤン・...

ドローン技術が牽引する未来のスマートシティ

テクノロジーが進化し続けるにつれ、ドローンが「破壊」と同義だった時代は終わりました。現在、ドローンは...

2026年までに世界の人工知能(AI)市場は2,390億ドルに達する

GMIリサーチの最新分析によると、人工知能市場は2019年から2026年の予測期間中に年平均成長率(...

AIの計算能力は70年間で6億8000万倍に増加し、3つの歴史的段階でAI技術の指数関数的爆発が目撃されました。

電子コンピュータは 1940 年代に発明され、登場から 10 年以内に人類史上初の AI アプリケー...

AIoT は私たちの未来をどのように定義するのでしょうか?

[[417111]] AI と IoT ほどエキサイティングで重要なテクノロジーの組み合わせはほと...

AIモデリングはもはや困難ではない:Jiuzhang Yunji DataCanvasが2つのオープンソース成果をリリース

[51CTO.comより] 「ソフトウェアインフラは大幅なアップグレードを受け、AIの実装はソフトウ...

人工知能、機械学習、データマイニング、データ分析の関係は何ですか?

人工知能は現在、注目されている分野です。すべてのインターネット企業や著名人が、人工知能はインターネッ...

...