SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションについて話し合い、学びました。いくつか興味深い質問があります。

データマイニングに関する基本的な知識と学習資料については、http://msdn.microsoft.com/zh-cn/library/bb510517.aspx を参照してください。

前の記事: SQL Server データマイニングにおけるいくつかの問題: 列の使用を理解する方法

この記事では、時々混乱を招く 2 つのアルゴリズム、クラスタリングとシーケンシャル クラスタリングについて説明します。

クラスタリング アルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。

クラスタリング アルゴリズムの一般的な効果は次のとおりです (次のカテゴリ名は、「ゴールド カスタマー」、「シルバー カスタマー」など、理解しやすいように変更および定義できます)。

クラスタリング アルゴリズムに関するよくある質問は、 「同じエンティティが異なるクラスターに現れるか?」、つまり重複する可能性はあるか?ということです。

この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。

以下のアルゴリズム パラメータ リストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。

3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な量であれば、読み取りは停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。

では、「シーケンシャル クラスタリング」とは何でしょうか? 実際、その正式名称は「Microsoft シーケンシャル クラスタリング」で、シーケンシャル分析とクラスター分析を組み合わせた特殊なアルゴリズムです。

#p#

このアルゴリズムがモデルを構築した後の効果はおおよそ次のようになります。

[注] 標準属性に加えて、シーケンシャル クラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準的なクラスタリング アルゴリズムと比較して、シーケンシャル クラスタリング アルゴリズムには、次に示すように別の特別なグラフがあります。

重要なのは、この絵をどう理解するかです。次の点をまとめます。

  1. シーケンシャル クラスタリング アルゴリズムは、まず第一に、入力エンティティをグループ化するクラスタリング アルゴリズムです。
  2. エンティティをグループに分割した後、これらのグループ内のエンティティのいくつかの動作 (主に時間に関連した動作) を分析して表示できるため、シーケンシャル クラスタリングと呼ばれます。

典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザー グループのクリック シーケンス フローを分析したりすることが挙げられます。

上記の図の例の説明は次のとおりです。この「カテゴリ1」のグループは通常、「Road-750」製品を購入した後、「Road Bottle Cage」を購入する可能性が77%あり、その後、「Water Bottle」を購入する可能性が93%あります。

オリジナルリンク: http://www.cnblogs.com/chenxizhang/archive/2011/07/24/2115331.html

【編集者のおすすめ】

  1. コードネーム: Denali、SQL Server が再び登場
  2. SQL Server Chroniclesについて話す
  3. SQL Server での暗号化の簡単な紹介
  4. SQL Server に目を向けよう

<<:  PHP+MySQL アプリケーションで XOR 暗号化アルゴリズムを使用する

>>:  SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解

ブログ    
ブログ    

推薦する

東南大学が世界初のLK-99ゼロ耐性テストに成功しました!常温超伝導が再び出現、人類史は転換点に近づいている

室温超伝導を再現する実験は、完全に爆発的な成長期に突入しました!今朝午前1時過ぎ、東南大学の物理学教...

中国消費者協会:所有者や消費者は顔認識を強制されることはない。情報が漏洩すると非常に有害だからだ。

今年の315ガラでは、いくつかの有名ブランド店が顔情報を違法に収集していたことが摘発された。これらの...

マイクロソフトはAIを活用して新しい電池材料を選別し、電池のリチウムの70%をナトリウムに置き換える

1 月 10 日、マイクロソフトの量子コンピューティング チームは、米国エネルギー省傘下のパシフィッ...

米国の委員会は「道徳的義務」を理由にAI兵器の開発を禁止すべきではないと勧告した。

[[378901]]米政府の委員会は報告書草案の中で、米国は人工知能(AI)を搭載した自律型兵器の...

AI はポイントアンドクリックプログラミングに終止符を打つことができるでしょうか?

マウスクリックプログラミングは、プログラミングの世界では常に新しいトレンドとなっています。簡単に言え...

人工知能は実体経済の強化を加速させる

[[258853]]人工知能は今年の全国人民代表大会で注目の話題の一つとなった。多くの代表者や議員は...

人工知能の市場推進要因、制約、機会

今日、ますます多くの企業が、事業運営に人工知能技術を活用しています。このテクノロジーは非常に建設的で...

インテリジェントオートメーションの台頭:デジタル時代のAI、ロボット工学、製造業

人工知能 (AI)、ロボット工学、自動化の融合により、生産性、効率性、革新の新しい時代が到来していま...

AIは都市部の地震監視のノイズ問題を解決すると期待されている

人口密度が高く、重要な施設が多数存在する都市では、破壊的な地震が発生すると壊滅的な結果をもたらすこと...

Google の請負業者が組合結成に投票: 権利の保護を希望

2018年11月1日、職場の問題に対する世界的な抗議活動の一環として、一部の従業員がGoogleの英...

安定的な動画拡散をリリースしました! 3D合成機能が注目を集める、ネットユーザー「進歩が速すぎる」

安定拡散当局はついにこのビデオに対して行動を起こした――生成ビデオモデルStable Video D...

自動化ロボットのHMI設計の詳細な説明

[[260977]] [51CTO.com クイック翻訳] ロボットの操作インターフェースをカスタマ...

...