データマイニングのためのK平均法アルゴリズムのグラフィカルな説明

K-means クラスタリングアルゴリズム中国語名は「K-means クラスタリングアルゴリズム」と呼ばれ、統計やデータマイニングの分野でよく使用されるアルゴリズムです。 Wikipedia では次のように紹介されています: k 平均法クラスタリングは、n 個の観測値を k 個のクラスターに分割し、各観測値が最も近い平均値を持つクラスターに属するようにするクラスター分析の手法です (n 個の観測値を k 個のクラスに分割し、各クラスの観測値がそのクラスの平均に最も近くなり、他のクラスの平均から遠ざかるようにします)。

まず、最もシンプルで直感的な図を見てみましょう。

上の図にはたくさんの点があります。これを 3 つのクラスターに分割したいのですが、どうすればよいでしょうか。人間であれば一目でわかりますが、コンピュータが分類するのはそれほど簡単ではありません。何らかのアルゴリズムを使用する必要がありますが、k-means はその 1 つです。 K-means は 2 次元空間でのクラスタリングだけでなく、n 次元ベクトル空間に拡張することもでき、文字、画像、音声なども扱うことができます。

上の図を例にとると、K-means アルゴリズムの基本的な手順は次のようになります。
入力: 処理対象となるデータセット（上図の点集合など）、クラスター数（3など）、平均計算方法（2点間の距離関数など）
ステップ 1. まず、各ポイントにランダムに色を付け、同じ色のポイントの座標の算術平均を計算して、対応する平均ポイントを示します。
ステップ 2. 現在計算されている平均ポイントに基づいてすべてのポイントセットを 3 つのカテゴリに分割し、各カテゴリの各ポイントを最も近い平均ポイントと同じ色でマークします。どうやって分けるの？ここでは、「タイソン多角形法」を紹介します。英語名は「ボロノイ図」です（記事参照***Wikipediaリンク）。それで、以下の写真ができました。

ステップ 3. すべてのポイントの色が変化しなくなるまで、ステップ 2 を繰り返します。
アルゴリズムが終了し、次の結果が出力されます。

上記の例は単純な2次元空間での例ですが、3次元空間に配置する場合は平均の計算方法を変更する必要があります。実際、多次元空間や文字、画像などの問題を扱う場合、問題によって計算式が異なります。この場合、mean の意味は「平均」ではない可能性があります。個体間の関係性を測るには、「類似性」と「相違点」を使用する方が良いかもしれません。詳細については、参考記事 1 を参照してください。

いつものように、私が書いた k-means アルゴリズムのコードを下に貼り付けるべきなのですが、残念ながらまだ Python の numpy ライブラリと matplotlib ライブラリを使って絵を描く方法を調べているところです。参考記事 2 に Python 言語のコードがあります。

***この記事の写真はすべて彼のスライドから取ったものなので、データマイニングの講師である Devert Alexandre 氏に感謝したいと思います。 ^_^

参考記事 1 参考記事 2Dベースk平均法 Wikipediaリンクティーセン多角形法 Wikipediaリンク (ボロノイ図)

オリジナルリンク: http://blog.nlogn.cn/%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98-k-means-%E7%AE%97%E6%B3%95/

<<: 地下鉄路線図のための高速経路探索アルゴリズム

>>: 再帰アルゴリズムにおけるリンクリスト操作

まだ理解していないフーリエ変換。ニューラルネットワークはそれを学習するのにたった30行以上のコードしか使用しませんでした

ブログ

ブラックテクノロジー検出法: 心拍を信号として利用し、偽モデルを「発見」

ブログ

データマイニングのためのK平均法アルゴリズムのグラフィカルな説明

まだ理解していないフーリエ変換。ニューラルネットワークはそれを学習するのにたった30行以上のコードしか使用しませんでした

AIとITの自動化の6つのレベル

AIを使用してC++、Java、Pythonコードを翻訳し、最大成功率は80.9%です。

Julia言語を使用して「準同型暗号化+機械学習」を実装するには？

海外の研究者がAIを使って生体認証を欺く顔を生成

グレートウルフホテルはAIを活用してゲストの体験とレビューを理解する

ブラックテクノロジー検出法: 心拍を信号として利用し、偽モデルを「発見」

推薦する

モデルはわずか1MBで、軽量な顔検出モデルはオープンソースであり、その効果は主流のアルゴリズムに劣らない。

Googleの自然言語処理はさらに一歩進んで、複雑な質問に直接答えることを可能にしました。

マスク氏がテスラFSD V12の試乗を生放送！世界初のエンドツーエンドAI自動運転、10,000台のH100でトレーニング

人工知能医療機器業界は前進する

台風を恐れる必要はありません。人工知能はすでに私たち自身と敵を理解するのに役立っています。

Microsoft の Zhu Chenguang: 事前トレーニング済みモデルの次のステップは何ですか? PLMの「不可能の三角形」を突破する

漫画の着色に機械学習を使用する

ジェネレーティブ AI が画像検索をどのように再定義するか

OpenAIは低コストで開発者を引き付けるために大規模なアップデートを計画している

筋肉の震えもはっきりと見えます！ 3D人体モデル自動生成アルゴリズム、第一著者北京大学チューリングクラス

マイクロソフトの人工知能音声技術は「複数の感情レベル」の調整をサポートし、「人間の声」の繊細な解釈を可能にする

マルチモーダル大規模モデル機能評価: Bard は必要なものですか?