今日は、機械学習の教師なし学習における一般的なクラスタリング手法をいくつか紹介したいと思います。 教師なし学習では、データにラベルが付いていないため、教師なし学習で必要なのは、この一連のラベルなしデータをアルゴリズムに入力し、アルゴリズムにデータに暗黙的に含まれる構造を見つけさせることです。下の図のデータから、データセット内のポイントを 2 つの別々のポイント セット (クラスター) に分割できるという構造が見つかります。これらのクラスターを循環させることができるアルゴリズムは、クラスタリング アルゴリズムと呼ばれます。 クラスタリングアルゴリズムの応用
クラスター分析の目的は、同じクラスターに割り当てられた観測値間のペアワイズ差が、異なるクラスター内の観測値間の差よりも小さくなるように、観測値をグループ (「クラスター」) に分割することです。クラスタリング アルゴリズムは、組み合わせアルゴリズム、ハイブリッド モデリング、パターン検索の 3 つのカテゴリに分類されます。 一般的なクラスタリング アルゴリズムには次のようなものがあります。
K平均法K-means アルゴリズムは、最も人気のあるクラスタリング手法の 1 つです。 K 平均法は、1957 年にベル研究所のスチュアート ロイドによって提案されました。当初はパルス符号変調に使用されていましたが、アルゴリズムは 1982 年まで公開されませんでした。 1965 年に Edward W. Forgy が同じアルゴリズムを公開したため、K-Means は Lloyd-Forgy と呼ばれることもあります。 クラスタリングの問題では、ラベルのないデータセットが与えられ、アルゴリズムによってこれらのデータを自動的に一貫したサブセットまたはクラスターに分割できることを期待します。 K-means アルゴリズムは、最も人気があり、広く使用されているクラスタリング アルゴリズムです。 K-means アルゴリズムの直感的な理解:ラベルのないデータセット(上図の左側)があり、それを 2 つのクラスターに分割するとします。次に、K 平均法アルゴリズムを実行します。具体的な操作は次のとおりです。
内側のループの最初のステップは、クラスター割り当てを実行することです。つまり、各サンプルを走査し、クラスター センターからの距離に基づいて各ポイントを異なるクラスター センターに割り当てます。この例では、データ セットを走査し、各ポイントを赤または青で色付けします。 内側のループの 2 番目のステップは、クラスターの中心を移動して、赤と青のクラスターの中心をそれぞれのポイントの平均 (各ポイント グループの平均位置) に移動することです。 次のステップは、新しいクラスターの中心からの距離に基づいてすべてのポイントを新しいクラスターに割り当て、クラスターの中心の位置が反復で変化しなくなり、ポイントの色も変化しなくなるまでこのサイクルを繰り返すことです。この時点で、K 平均法が集約されたと言えます。このアルゴリズムは、データ内の 2 つのクラスターを非常にうまく見つけ出します。 K-Means アルゴリズムの利点:理解しやすく、計算速度が速く、大規模なデータセットに適しています。 欠点:
階層的クラスタリング階層的クラスタリングは、その名前が示すように、サンプル セットを特定のレベルに従ってクラスタ化します。ここでのレベルは、実際には特定の距離の定義を指します。 階層的クラスタリングの最終的な目標はカテゴリの数を減らすことなので、その動作はツリー図がリーフノードからルートノードに移動するプロセスに似ており、この動作は「ボトムアップ」とも呼ばれます。 より一般的には、階層的クラスタリングでは、初期化された複数のクラスターをツリー ノードとして扱います。各反復で、類似のクラスターが新しい大きなクラスターにマージされ、このプロセスは 1 つのクラスター (ルート ノード) だけが残るまで繰り返されます。 階層的クラスタリング戦略は、凝集型(ボトムアップ)と分割型(トップダウン)の 2 つの基本パラダイムに分けられます。 階層的クラスタリングの反対は、DIANA (Divise Analysis) とも呼ばれる分割クラスタリングで、「トップダウン」方式で動作します。 K-means を適用した結果は、検索するクラスターの数の選択と開始構成の割り当てによって異なります。対照的に、階層的クラスタリング手法ではそのような仕様は必要ありません。代わりに、ユーザーは、2 つの観測グループ間のペアワイズ非類似度に基づいて、観測の (互いに素な) グループ間の非類似度の尺度を指定する必要があります。名前が示すように、階層表現が生成され、階層の各レベルのクラスターは、次の下位レベルのクラスターをマージすることによって作成されます。最下位レベルでは、各クラスターに 1 つの観測値が含まれます。最高レベルでは、すべてのデータを含むクラスターが 1 つだけあります。 アドバンテージ:
欠点:
凝集型クラスタリング凝集型クラスタリングは、各データ ポイントを初期クラスターとして扱い、停止条件に達するまで徐々にそれらをより大きなクラスターにマージするボトムアップ クラスタリング アルゴリズムです。このアルゴリズムでは、各データ ポイントは最初に個別のクラスターとして扱われ、その後、すべてのデータ ポイントが 1 つの大きなクラスターに結合されるまで、クラスターは段階的に結合されます。 アドバンテージ:
欠点:
親和性の伝播アフィニティ伝播 (AP) アルゴリズムは、通常、近隣伝播アルゴリズムまたはアフィニティ伝播アルゴリズムとして翻訳されます。 アフィニティ伝播は、グラフ理論に基づくクラスタリング アルゴリズムであり、データ内の「標本」(代表的なポイント) と「クラスター」(クラスター) を識別することを目的としています。 K-Means などの従来のクラスタリング アルゴリズムとは異なり、Affinity Propagation では、クラスターの数を事前に指定する必要はなく、クラスターの中心をランダムに初期化する必要もありません。代わりに、データ ポイント間の類似性を計算することで、最終的なクラスタリング結果を取得します。 アドバンテージ:
欠点:
平均シフトクラスタリング平均シフト クラスタリングは、密度ベースのノンパラメトリック クラスタリング アルゴリズムです。基本的な考え方は、データ ポイントの密度が最も高い場所 (「局所的最大値」または「ピーク」と呼ばれる) を見つけることで、データ内のクラスターを識別することです。アルゴリズムの中核は、各データ ポイントに対してローカル密度推定を実行し、密度推定の結果を使用してデータ ポイントの移動方向と距離を計算することです。アルゴリズムの中核は、各データ ポイントに対してローカル密度推定を実行し、密度推定の結果を使用してデータ ポイントの移動方向と距離を計算することです。 アドバンテージ:
欠点:
K平均法の二分法二分 K 平均法は、K 平均法アルゴリズムに基づく階層的クラスタリング アルゴリズムです。基本的な考え方は、すべてのデータ ポイントを 1 つのクラスターに分割し、そのクラスターを 2 つのサブクラスターに分割し、各サブクラスターに K 平均法アルゴリズムを個別に適用し、クラスターの数が所定の数に達するまでこのプロセスを繰り返すことです。 このアルゴリズムは、まずすべてのデータ ポイントを 1 つの初期クラスターと見なし、次にこのクラスターに K-Means アルゴリズムを適用し、クラスターを 2 つのサブクラスターに分割して、各サブクラスターの二乗誤差の合計 (SSE) を計算します。次に、二乗誤差の合計が最大となるサブクラスターが選択され、再度 2 つのサブクラスターに分割され、このプロセスがクラスターの所定の数に達するまで繰り返されます。 アドバンテージ:
欠点:
DBスキャンノイズを含むアプリケーションの密度ベース空間クラスタリング (DBSCAN) は、典型的な密度ベースの空間クラスタリング アルゴリズムです。 密度ベースの方法の特徴は、距離ではなく密度に依存するため、距離ベースのアルゴリズムでは「球状の」クラスターしか発見できないという欠点を克服できることです。 DBSCAN アルゴリズムの基本的な考え方は、特定のデータ ポイントについて、その密度が特定のしきい値に達するとクラスターに属し、それ以外の場合はノイズ ポイントとみなされるというものです。 アドバンテージ:
欠点:
光学OPTICS (Ordering Points To Identify the Clustering Structure) は、クラスターの数を自動的に決定し、任意の形状のクラスターを検出し、ノイズの多いデータを処理できる密度ベースのクラスタリング アルゴリズムです。 OPTICS アルゴリズムの中心的な考え方は、特定のデータ ポイントについて、他のポイントまでの距離を計算することで、密度の観点からの到達可能性を決定し、密度ベースの距離グラフを構築するというものです。次に、距離マップをスキャンすることで、クラスターの数が自動的に決定され、各クラスターが分割されます。 アドバンテージ:
欠点:
バーチBIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) は、階層的クラスタリングに基づくクラスタリング アルゴリズムです。大規模なデータ セットを迅速に処理でき、任意の形状のクラスタに優れた効果を発揮します。 BIRCH アルゴリズムの中心的な考え方は、データセットに対して階層的クラスタリングを実行することでデータサイズを徐々に削減し、最終的にクラスター構造を取得することです。 BIRCH アルゴリズムは、CF ツリーと呼ばれる B ツリーに似た構造を使用します。これにより、サブクラスターをすばやく挿入および削除でき、クラスターの品質と効率を確保するために自動的にバランスをとることができます。 アドバンテージ:
欠点:
|
<<: ネット全体が「被験者3」を真似し、メッシ、アイアンマン、二次元の女の子が即勝利
>>: ビッグデータ時代のデータセット蒸留:大規模データセットでの最初の成功
企業の時代はなく、時代の企業だけがある!新たなトレンドに直面しても、古い大手企業は反応が遅く、固定観...
SFではAIロボットは悪者として描かれるかもしれないが、一部のテクノロジー大手は現在、AIロボット...
[[423982]]バイナリ ツリーが与えられた場合、そのノード値のボトムアップ レベルのトラバーサ...
モノのインターネットはさまざまな分野に浸透しており、その魅力と需要は徐々に高まっています。このテクノ...
近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
12月9日、ワシントンポスト紙やエンガジェットなどの海外メディアの報道によると、世界各国がAIの急速...
[[272651]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
[[269504]]人工知能はまるでまだ遠い未来の話であるかのように語られていますが、実際にはすでに...
1. ビデオ監視産業の発展動向わが国では、安全都市やインテリジェント交通などのさまざまな建設プロジェ...
CES は世界最大かつ最も影響力のある消費者向け電子機器展示会です。米国時間1月8日、ラスベガスで...
インテリジェント時代の到来とともに、テクノロジー生活は家庭システム全体を席巻しています。さまざまなス...