データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

導入

K 平均法アルゴリズムとも呼ばれ、教師なし学習におけるクラスタリングアルゴリズムです。

基本的な考え方

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

k 個の初期重心を選択します (初期クラスターとして、各初期クラスターには 1 つのポイントのみが含まれます)。

繰り返す：

各サンプルポイントについて、最も近い重心を計算し、そのカテゴリを重心に対応するクラスターとしてマークします。
k 個のクラスターに対応する重心を再計算します (重心はクラスター内のサンプルポイントの平均です)。
重心が変化しなくなるまで 12345

繰り返し回数によってアルゴリズムの反復回数が決まります。実際、k-means の本質は、各点からそのクラスターの重心までの距離の二乗の合計である目的関数を最小化することです。

Nは要素の数、xは要素を表し、c(j)はj番目のクラスターの重心を表す。
アルゴリズムの複雑さ
時間の計算量は O(nkt) です。ここで、n は要素の数、t はアルゴリズムの反復回数、k はクラスターの数を表します。

長所と短所

アドバンテージ
シンプルで高速。
大規模なデータセットに対して効率的かつスケーラブルです。
時間の計算量は線形に近いため、大規模なデータセットのマイニングに適しています。

欠点

K-means はローカル *** であるため、初期重心の選択に敏感です。
目的関数の最高のパフォーマンスを達成できる k 値を選択することは非常に困難です。

コード

コードはgithubに実装されており、ここにも投稿されています。

テストデータセットの取得アドレスはtestSetです

<<: すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

>>: Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか？

コンテナで AI アプリケーションを実行する際に知っておくべき 6 つの原則

コンテナで AI アプリケーションを実行する際に知っておくべき 6 つの原則

ブログ

IoT が成功するために AI が必要な理由

IoT が成功するために AI が必要な理由

ブログ

「初の常温常圧超伝導体」に対する共同研究者の反応：内容に欠陥あり

「初の常温常圧超伝導体」に対する共同研究者の反応：内容に欠陥あり

ブログ

ブログ

AI、新たなアリババとテンセント

AI、新たなアリババとテンセント

ブログ

AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

AI 開発企業向けのトップ機械学習フレームワーク (2020 年版)

ブログ

5Gヘルスケアの7つの未来

5Gヘルスケアの7つの未来

ブログ

5種類の画像注釈の紹介

5種類の画像注釈の紹介

ブログ

認識を覆せ！ソフトロボットは確実に変化をもたらす

認識を覆せ！ソフトロボットは確実に変化をもたらす

ブログ

AI戦争が近づく中、ChatGPTが軍事禁止を解除

AI戦争が近づく中、ChatGPTが軍事禁止を解除

ブログ

推薦する

PyTorch ガイド: ディープラーニングモデルのトレーニングを高速化する 17 のヒント!

PyTorch でディープラーニングモデルをトレーニングする場合、モデルのトレーニングを高速化す...

...

新しいエッジAI手法であるTinyMLは、超低消費電力でエッジデバイス上で機械学習を実行します。

人工知能 (AI) はクラウドからエッジへと急速に移行しており、ますます小型の IoT デバイスに導...

...

AIは人間の編集者に代わる最初の試みに失敗した。WikipediaはCNET Mediaを信頼できる情報源とみなさなくなった

3月2日のニュースによると、数秒以内にニュース記事を生成することは、メディア業界にとって確かに非常に...

シリコンバレーの人工知能専門家：人類は20年以内に老化の束縛から解放されるかもしれない

現在、世界最高齢の人は、ギネス世界記録に認定された118歳の日本人老人、田中カネさんです。田中選手の...

老黄が深夜に爆発、AIGCがiPhoneの瞬間に突入！ハギングフェイスは最強のスーパーコンピューターに接続されており、謎のグラフィックカードはA100よりも優れている

生成 AI の時代が到来し、iPhone の時代が到来しました。 8月8日、NVIDIA CEOのジ...

Amazon が「AI チケット」を購入するために 40 億ドルを費やす!ユニコーン企業に投資し、ライバル企業から幹部を引き抜く

米国現地時間9月25日、AmazonとAnthropicは共同で次のように発表した。アマゾンはアント...

Go 向けに設計された機械学習ライブラリ Gorgonia: TensorFlow や Theano のライバル

[[184558]] Gorgonia は、Go での機械学習を容易にし、多次元配列を含む数式の記述...

セマンティクスと機械学習が融合するとき

人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、...

「人工知能」の時代が来るのか？将来的には「産業の新たな高地」となると予想され、多くの国がすでに計画を立てている。

[[415258]] 2017年、サウジアラビアの首都リヤドで開催された未来投資イニシアチブ会議に...

ジェネレーティブAIの力を最大限に引き出す方法

生成 AI により、機械はコンテンツを作成し、人間の行動を模倣し、創造的な仕事に貢献できるようになり...

この履歴書はAIの助けを借りて作成されたことが判明しました。！

秋の就職活動は静かに過ぎ去りましたが、信頼できるインターンシップ先を見つけたい大学生にとって、すべて...

ショアのアルゴリズム: RSA 暗号解読の「不滅の神話」

RSA 暗号化は、かつては最も信頼性の高い暗号化アルゴリズムと考えられていましたが、Shor のア...

...