データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

データマイニングの分野でトップ 10 の古典的なアルゴリズムの 1 つ - K-Means アルゴリズム (コード付きで非常に詳細)

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

導入

K 平均法アルゴリズムとも呼ばれ、教師なし学習におけるクラスタリング アルゴリズムです。

基本的な考え方

k-means アルゴリズムは比較的単純です。 k-means アルゴリズムでは、クラスターはクラスターを表すために使用されます。k-means アルゴリズムの収束は、すべての重心が変化しなくなることと同等であることが簡単に証明できます。基本的な k-means アルゴリズムのプロセスは次のとおりです。

k 個の初期重心を選択します (初期クラスターとして、各初期クラスターには 1 つのポイントのみが含まれます)。

繰り返す:

  • 各サンプル ポイントについて、最も近い重心を計算し、そのカテゴリを重心に対応するクラスターとしてマークします。
  • k 個のクラスターに対応する重心を再計算します (重心はクラスター内のサンプル ポイントの平均です)。
  • 重心が変化しなくなるまで 12345

繰り返し回数によってアルゴリズムの反復回数が決まります。実際、k-means の本質は、各点からそのクラスターの重心までの距離の二乗の合計である目的関数を最小化することです。

  • Nは要素の数、xは要素を表し、c(j)はj番目のクラスターの重心を表す。
  • アルゴリズムの複雑さ
  • 時間の計算量は O(nkt) です。ここで、n は要素の数、t はアルゴリズムの反復回数、k はクラスターの数を表します。

長所と短所

  • アドバンテージ
  • シンプルで高速。
  • 大規模なデータセットに対して効率的かつスケーラブルです。
  • 時間の計算量は線形に近いため、大規模なデータセットのマイニングに適しています。

欠点

  • K-means はローカル *** であるため、初期重心の選択に敏感です。
  • 目的関数の最高のパフォーマンスを達成できる k 値を選択することは非常に困難です。

コード

コードはgithubに実装されており、ここにも投稿されています。

テストデータセットの取得アドレスはtestSetです

<<:  すべての携帯電話にAIが搭載されているのに、なぜそれを軽蔑するのですか?

>>:  Apple、Googleなど大企業のAI面接の質問を入手しました。あなたは挑戦してみますか?

ブログ    

推薦する

彼女はウルトラマンを追い出すキーパーソンなのか? OpenAI CTOがビッグニュースを発表

OpenAI の内部紛争が 1 年経っても解決されていないとは思いもしませんでした。またしても爆発メ...

AIも催眠術をかけられるのか?

いつか、おそらく数十年以内に、人工ニューラル ネットワークを使用して、人間の脳をリアルにシミュレート...

機械学習における欠損値に対処する9つの方法

データサイエンスはデータに関するものです。これは、あらゆるデータ サイエンスや機械学習プロジェクトの...

このような秩序だったニューロンは、皆さんがよくご存知の再帰型ニューラル ネットワークに似ていますか?

本論文では、これまでの RNN モデル研究に基づいて、隠れ状態ニューロン間の更新頻度の順序を強制し、...

...

ディープラーニングを超える新しいAIプログラミング言語Genについて1つの記事で学びましょう

AI の急速な発展は多くの人々の学習意欲をかき立てていますが、初心者にとっては大量の手動プログラミン...

大規模言語モデルと知識グラフに関する共同研究のレビュー:2つの相補的な技術的利点

大規模言語モデル (LLM) はすでに強力ですが、さらに強力になる可能性があります。 LLM は、ナ...

...

GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

背景大規模言語モデル (LLM) は強力な機能を発揮していますが、不快な応答、虚偽の情報、漏洩した個...

...

最初の失業中の人工知能ロボット

デジタル化の大きな波の中で、一見些細な失敗が、深い疑問を浮かび上がらせます。それは、企業が業務に人工...

AIのための大規模ストレージインフラストラクチャの要件

大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...

今日のアルゴリズム: 文字列の乗算

[[421393]]この記事はWeChatの公開アカウント「3分でフロントエンドを学ぶ」から転載した...

...

旅の途中を超えて?文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...