前回の「SQL SERVER データ マイニングと列の使用方法の理解」に続き、今回はSQL SERVER データ マイニングとクラスタリング アルゴリズムおよびシーケンシャル クラスタリング アルゴリズムの理解について紹介します。以下の紹介から始めましょう。 クラスタリング アルゴリズムは、非常に一般的に使用されているアルゴリズムです。その機能は、データをグループ化し、類似した特性を持つエンティティを整理して、対象エンティティの分類決定を支援することです。代表的なケースとしては、人口統計分析、顧客分析などが挙げられます。 クラスタリング アルゴリズムの一般的な効果は次のとおりです (以下のカテゴリ名は、「ゴールド カスタマー」、「シルバー カスタマー」など、理解しやすいように変更および定義できます)。 クラスタリング アルゴリズムに関するよくある質問は、「同じエンティティが異なるクラスターに現れるかどうか」です。重複する可能性はありますか? この質問に対する答えは、重複があるかどうかはアルゴリズムの設定によって決まるということです。デフォルトでは重複が可能です。 以下のアルゴリズム パラメータ リストには、デフォルトで 1 に設定されている CLUSTERING_METHOD があります。これは、オーバーラップを許可する EM (期待値最大化) アルゴリズムと呼ばれるものです。 3 または 4 に設定すると、重複は許可されません。スケーラブルかどうかは、アルゴリズムがデータを読み取るためのルールを指します。スケーラブルである場合、最初に 50,000 件のレコードがモデリングのシードとして読み取られます。十分な場合は、読み取りが停止します。それ以外の場合は、次の 50,000 を読み続けてください。非スケーラブルでは、毎回すべてのエンティティが読み取られます。 では、「シーケンシャルクラスタリング」とは何でしょうか?実際、その正式名称は「Microsoft Sequence Clustering」であり、シーケンス分析とクラスター分析を組み合わせた特殊なアルゴリズムです。 このアルゴリズムがモデルを構築した後の効果は、おおよそ次のようになります。 [注] 標準属性に加えて、シーケンシャル クラスタリングには、順序の概念を反映する、いわゆる「遷移」があることに注意することが重要です。標準のクラスタリング アルゴリズムと比較して、シーケンシャル クラスタリング アルゴリズムでは、次の図に示すように、別の特殊なグラフが生成されます。 重要なのは、この絵をどう理解すべきかということです。以下の点をまとめます。 1. シーケンシャルクラスタリングアルゴリズム。まず、入力エンティティをグループ化するクラスタリングアルゴリズムです。 2. グループを分割した後、これらのグループ内のエンティティのいくつかの動作(主に時間に関連した動作)を分析して表示できるため、シーケンシャル クラスタリングと呼ばれます。 典型的な状況としては、さまざまな顧客グループが商品をショッピングカートに入れる順序を分析したり、会社の Web サイトにアクセスするさまざまなユーザー グループのクリック シーケンス フローを分析したりすることが挙げられます。 これで、SQL SERVER データ マイニングの紹介: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解は終了です。次回は、SQL SERVER データ マイニング: Web パス フロー マイニングの実装方法を紹介します。 【編集者のおすすめ】
|
<<: SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解
>>: C++開発におけるデータ構造とアルゴリズムの分離についての簡単な説明
人工知能は現在、ますます広く利用されるようになっています。ほとんどの場合、堅牢で適応性の高い AI ...
ここ数年、世界的な自動運転はまだ発展途上であったとすれば、各国の政策の推進により、自動運転に関する最...
[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...
過去10年間で、多数のカップルがオンラインで出会いました。出会い系アプリを使って恋人を見つけることは...
1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである ...
[[271164]]人類史上初のプログラム可能なメモリスタ コンピュータが誕生しました。音声コマン...
自動運転車は、車線を正確に検出するために、さまざまな色や照明条件下で車線を認識する必要があります。車...
人類にとって、時間は常に最大の敵であり、時間を超越することは常に人類の夢でした。「未来を予測する」こ...
7月9日、2020年世界人工知能大会(WAIC)クラウドサミットが正式に開幕した。クアルコムのクリス...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
[[275279]]アンソニー・レヴァンドウスキーはシリコンバレーのスターエンジニアです。自動運転技...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...