最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションについて話し合い、学びました。いくつか興味深い質問があります。 データマイニングに関する基本的な知識と学習資料については、http://msdn.microsoft.com/zh-cn/library/bb510517.aspx を参照してください。 前の記事: SQL Server データマイニングにおけるいくつかの問題: 列の使用を理解する方法 この記事では、時々混乱を招く 2 つのアルゴリズム、クラスタリングとシーケンシャル クラスタリングについて説明します。 クラスタリング アルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。 クラスタリング アルゴリズムの一般的な効果は次のとおりです (次のカテゴリ名は、「ゴールド カスタマー」、「シルバー カスタマー」など、理解しやすいように変更および定義できます)。 クラスタリング アルゴリズムに関するよくある質問は、 「同じエンティティが異なるクラスターに現れるか?」、つまり重複する可能性はあるか?ということです。 この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。 以下のアルゴリズム パラメータ リストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。 3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な量であれば、読み取りは停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。 では、「シーケンシャル クラスタリング」とは何でしょうか? 実際、その正式名称は「Microsoft シーケンシャル クラスタリング」で、シーケンシャル分析とクラスター分析を組み合わせた特殊なアルゴリズムです。 #p# このアルゴリズムがモデルを構築した後の効果はおおよそ次のようになります。 [注] 標準属性に加えて、シーケンシャル クラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準的なクラスタリング アルゴリズムと比較して、シーケンシャル クラスタリング アルゴリズムには、次に示すように別の特別なグラフがあります。 重要なのは、この絵をどう理解するかです。次の点をまとめます。
典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザー グループのクリック シーケンス フローを分析したりすることが挙げられます。 上記の図の例の説明は次のとおりです。この「カテゴリ1」のグループは通常、「Road-750」製品を購入した後、「Road Bottle Cage」を購入する可能性が77%あり、その後、「Water Bottle」を購入する可能性が93%あります。 オリジナルリンク: http://www.cnblogs.com/chenxizhang/archive/2011/07/24/2115331.html 【編集者のおすすめ】
|
<<: PHP+MySQL アプリケーションで XOR 暗号化アルゴリズムを使用する
>>: SQL SERVER データマイニング: クラスタリングアルゴリズムとシーケンシャルクラスタリングアルゴリズムの理解
人工知能の発展の波の中で、人間はロボットが自己認識を持つことに対して非常に警戒心を抱いています。結局...
クリスマスが近づいてきました。ボストン ダイナミクスから特別なクリスマス ギフトをお届けします。昨日...
AI 技術の継続的な革新と発展により、人工知能 (AI) は多くの分野で大きな進歩を遂げており、その...
AIは再び人間の世界チャンピオンを破り、ネイチャー誌の表紙を飾りました。 AlphaGo が前回囲碁...
【51CTO.comオリジナル記事】 9月28日、「オープンソース開発とオープン性」をテーマにした...
「エネルギー自己教師学習っていったい何?」と多くのRedditネットユーザーがコメントした。ちょう...
1. ニューラルネットワークに基づく機械翻訳選択理由: 翻訳は「自然言語処理」の中でも最も重要な分...
翻訳者|朱 仙中レビュー | Chonglou導入通常、事前トレーニング済みの大規模言語モデル (L...
近年、ディープラーニング技術の登場により、視覚画像処理はますます普及し、さまざまな分野で広く利用され...
近年、自動車業界はインテリジェント車両システムの出現により大きな変化を遂げています。これらのシステム...
生成アルゴリズム、事前トレーニング済みモデル、マルチモーダルなどの技術の累積的な統合と反復を経て、人...
国際的に著名な学者である周海中教授は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよ...