SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

1. 決定木アルゴリズム

決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツリー構造です。決定木はサンプル属性をノードとして使用し、属性値をブランチとして使用します。これはフローチャートと似たプロセスであり、各内部ノードは属性に対するテストを表し、各ブランチはテスト出力を表し、各リーフノードはクラスまたはクラス分布を表します。多数のサンプルの特性を分析し、要約します。ルート ノードはすべてのサンプルの中で最も情報量が多い属性であり、中間ノードは、このノードをルートとするサブツリーに含まれるサンプル サブセットの中で最も情報量が多い属性であり、決定木のリーフ ノードはサンプルのカテゴリ値です。

ツリーのルート ノードから開始して、テスト条件が検査記録に使用され、テスト結果に応じて適切なブランチが選択されます。ブランチに沿って、別の内部ノードに到達するか、新しいテスト条件が使用されるか、またはリーフ ノードに到達します。リーフ ノードのクラス名が検査記録に割り当てられます。決定木の各ブランチは、新しい決定ノード、またはリーフと呼ばれるツリーの終端のいずれかです。決定木を上から下まで辿る過程で、各ノードで質問に遭遇します。各ノードでの質問に対する異なる回答は異なる分岐につながり、最終的にリーフ ノードに到達します。このプロセスは、決定木を使用して分類するプロセスです。決定木アルゴリズムは、1 つ以上の予測変数からカテゴリ従属変数の個々のケースの傾向変化関係を予測できます。

SQL Server 2008 では、マイニング モデル ビューアーを通じてデシジョン ツリー モデルを表示できます。図1に示すように。

図 1 では、決定木の表示が一連の分割で構成されており、最も重要な分割がアルゴリズムによって決定され、ビューアーの左側の「すべて」ノードに配置されていることがわかります。他の分割は右側に表示されます。依存関係ネットワークは、入力属性とモデル内の予測可能な属性間の依存関係を示します。また、スライダーを使用して依存関係の強度をフィルタリングすることもできます。

2. クラスター分析アルゴリズム

クラスタリング分析アルゴリズムは、幾何学的空間における個々のデータ ポイント間の距離に基づいて、個人間の類似性を測定します。距離が近いほど類似性が高くなり、1 つのカテゴリに分類しやすくなります。クラスターが最初に定義された後、アルゴリズムはクラスターがポイントのグループをどの程度適切に表しているかを計算し、それらのグループを再定義して、データをより適切に表すクラスターを作成しようとします。アルゴリズムは、分類を再定義しても結果を改善できなくなるまで、このプロセスをループします。簡単に言えば、クラスタリングとは、データ オブジェクトのコレクションを、類似のオブジェクトで構成される複数のクラスにグループ化するプロセスです。クラスタリングは、ビジネスにおける顧客分析に使用されます。顧客データベースからさまざまな顧客グループを発見し、さまざまな顧客グループの行動パターンを分析できます。

SQL Server 2008 では、マイニング モデル ビューアーを通じてクラスタリング分析モデルを表示できます。図2に示すように。

図 2 の分類関係図は、クラス間の相関の強さを示しています。分類プロファイル図は、従属変数と独立変数間の相関の強さを理解するのに役立ちます。分類機能は主に各カテゴリの特性を表します。分類比較は、主に 2 つのカテゴリ間の特性の比較を示します。

3. ナイーブベイズアルゴリズム

Naive Bayes アルゴリズムは、予測モデリング用に Microsoft SQL Server Analysis Services によって提供される分類アルゴリズムです。ナイーブベイズアルゴリズムは、特定のクラスに対する属性値の影響は他の属性の値とは無関係であると仮定するベイズの定理を使用します。このアルゴリズムは他のアルゴリズムと比較して計算量が少なく、入力列と予測可能な列の関係を検出するためのマイニング モデルを迅速に生成できます。このアルゴリズムは、初期データ検出に使用できます。大規模なデータベースで使用すると、決定木やニューラル ネットワークに匹敵する高い精度と速度も示されます。

このアルゴリズムは教師あり学習法を採用しており、分類の前に分類の種類を事前に知っておく必要があります。トレーニングサンプルから学習することで、分類を効果的に実行できます。つまり、トレーニング サンプルの中心概念は、トレーニング サンプル内の属性関係を通じて生成され、生成されたこれらの中心概念は、分類されていないデータ オブジェクトを予測するために使用されます。

SQL Server 2008 では、マイニング モデル ビューアーを通じて Naive Bayes モデルを表示できます。図3に示すように。

図 3 では、依存関係ネットワークによってデータの分布に関するさらなる洞察が提供されます。プロパティ プロファイルは、各変数の特性分布についての洞察を提供します。属性特性は、さまざまなグループ分類の基本的な特性確率を示すことができます。属性比較は、属性間の特性の比較を提示することです。

4. 相関ルールアルゴリズム

関連付けアルゴリズムのルールは、データベース内の変数と個体間の関係の度合いを発見すること、つまり、大量のデータ内のアイテム セット間の興味深い関連性または関連する接続を発見することです。たとえば、関連ルールマイニングでは、買い物かご分析が典型的な例です。買い物かご分析は、顧客が購入したさまざまな商品の関係を分析して、顧客の購買習慣を探り、販売者がマーケティング戦略を策定できるようにするプロセスです。関連ルール アルゴリズムには、サポートと信頼度という 2 つの重要なパラメーターがあります。サポートとは、アイテム セット X と Y でイベント X と Y が同時に発生する確率を指します。信頼度は、アイテム セット X と Y でイベント X が発生する確率の下でイベント Y が発生する確率を指します。

SQL Server 2008 では、マイニング モデル ビューアーを通じて関連ルール モデルを表示できます。図4に示すように

図 4 では、ルールはアルゴリズムによって生成された関連ルールを表示できます。これにより、関連ルールの内容と、そのサポートと信頼度を理解することができます。アイテム セットでは、アルゴリズムによって生成されたオブジェクト グループを表示できるため、各オブジェクト グループの内容とそのサポートを理解できます。依存関係ネットワークは、製品間の相関関係を提示し、グラフィックを通じて製品間の相関関係を理解することができます。

5. シーケンシャル分析とクラスター分析アルゴリズム

シーケンス クラスタリング アルゴリズムは、Microsoft SQL Server Analysis Services によって提供されるシーケンス分析アルゴリズムです。このアルゴリズムを使用すると、パスまたはシーケンスをたどってリンクできるイベントを含むデータを探索できます。アルゴリズムは、同一のシーケンスをグループ化または分類することによって、最も一般的なシーケンスを見つけます。

SQL Server 2008 では、マイニング モデル ビューアーを通じて順次分析モデルを表示できます。図5に示すように

図 5 では、分類関係図にマイニング モデル内のすべての分類を表示でき、分類間の線の明るさは分類の類似性を示しています。カテゴリの右側にあるスライダーを調整することで、表示される接続の数を調整できます。クラスター プロファイル プロットは、アルゴリズムによって作成されたクラスターの全体像を提供し、クラスター内の各属性と属性の分布を表示します。カテゴリ特性を使用すると、分類を構成する特性を調べることができます。カテゴリ比較では、2 つのカテゴリのプロパティを比較できます。状態遷移 カテゴリを選択すると、選択したカテゴリ内のシーケンス状態間の遷移を参照できます。

6. タイミングアルゴリズム

時系列アルゴリズムは、連続値の予測に最適化されたいくつかの回帰アルゴリズムを提供し、時系列を主な傾向成分と季節変動成分に分解し、理論モデルが現象を反映できるかどうかをテストします。

SQL Server 2008 では、マイニング モデル ビューアーを通じて時系列モデルを表示できます。図6に示すように

図6では、チャートバーに予測変数の過去の値と予測値、および誤差間隔が表示されています。モデルは、完成したモデルを含むアルゴリズムをツリーとして表示します。

7. ニューラルネットワークアルゴリズム

ニューラル ネットワークは接続された入力出力ユニットのセットであり、各接続には重みが関連付けられています。トレーニングおよび学習フェーズでは、入力サンプルの正しいクラス ラベルを予測できるように、トレーニング ネットワークの重みが調整されます。ニューラル ネットワーク アルゴリズムは、最大 3 層のニューロンで構成されるネットワークを作成します。これらの層は、入力層、オプションの隠し層、および出力層です。入力層: 入力ニューロンは、データ マイニング モデルのすべての入力属性値とその確率を定義します。隠しニューロンは入力ニューロンから入力を受け取り、出力ニューロンに出力を提供します。隠し層では、さまざまな入力確率に重みが割り当てられます。重みは、特定の入力の隠れニューロンへの関連性または重要性を表します。入力に割り当てられる重みが大きいほど、その入力の値は重要になります。出力ニューロンは、データマイニングモデルの予測可能な属性値を表します。

SQL Server 2008 では、マイニング モデル ビューアーを通じてニューラル ネットワーク モデルを表示できます。図7に示すように

図 7 では、入力はニューラル ネットワーク モデルが入力として使用する属性と属性値を選択します。出力は、出力を使用するニューラル ネットワークのプロパティを指定します。変数の指定された属性の右側にあるバーは、指定された入力属性の状態が優先される出力属性の状態を表します。 バーのサイズは、出力状態が入力状態にどの程度近づいているかを示します。

8. ロジスティック回帰アルゴリズム

ロジスティック回帰は、入力ドメイン値と出力フィールドの各カテゴリの確率を関連付ける一連の方程式を確立することにより、入力ドメイン値に基づいてレコードを分類する統計手法です。このモデルは、バイナリまたは順序付けられた従属変数と説明変数の関係を分析し、独立変数を使用して従属変数が特定の値になる確率を予測します。モデルが生成されると、それを使用して新しいデータの確率を推定できます。最も高い確率を持つターゲット クラスが、そのレコードの予測出力値として割り当てられます。ロジスティック回帰アルゴリズムは、ニューラル ネットワーク アルゴリズムのバリエーションであり、複数の要因が 1 組の結果に与える影響を判断するために使用されます。入力と出力の関係をモデル化することにより。各入力が出力に与える影響を測定し、完成したモデルにおけるさまざまな入力の貢献度を評価します。

9. 線形回帰アルゴリズム

線形回帰アルゴリズムは、統計と予測によく使用される方法です。これは、決定木アルゴリズムの変形です。従属変数と独立変数間の線形関係を計算し、入力フィールドに基づいて出力フィールドを予測するための最適な線形方程式を推定し、その関係を使用して予測を行うのに役立ちます。直線または平面で表される線形回帰を使用して 2 つの連続した列間の関係を決定し、データ列間の関係を評価します。

<<:  8 クイーン問題を解く C# アルゴリズムの簡単な分析

>>:  ASP.NET データ暗号化を実現する対称暗号化アルゴリズム

ブログ    

推薦する

【文字列処理アルゴリズム】回文判定のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、その文字列が回文であるかどうかを判断するプログラムを作成します。便宜...

バックアップと災害復旧のための生成AIツールはまだ初期段階にある

バックアップ ソフトウェア ベンダーはすでに自動化と仮想アシスタント用の生成 AI ツールを導入して...

...

AI革命:大人になったら仕事がないかもしれない

2050 年の雇用市場がどうなるかは全く分かりません。 [[412422]]わずか10年から20年の...

中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。

中国人工知能産業発展連盟メディアプロジェクトグループの設立会議が2018年1月25日に北京で開催され...

人工知能が人間に取って代わり、多くの人が失業することになるのでしょうか?

人工知能とは何ですか? AI と呼ばれる人工知能は、コンピュータ サイエンスの一分野です。このテクノ...

一般的な機械学習アルゴリズム11種の紹介

近年、需要の高さと技術の進歩により、機械学習の人気は大幅に高まっています。 データから価値を生み出す...

第6回ドルイドチャイナミートアップがKuaishou本部で開催されました

3月16日、KuaishouとTestin Cloud Testingが共同で主催するApache ...

機械学習アルゴリズムを使用して配信リンクを最適化する方法

【51CTO.comオリジナル記事】 1. 背景紹介---VODソース配信の問題点オンデマンドビデオ...

...

5分間の技術講演 | GET3D生成モデルの簡単な分析

パート01●序文近年、MidjourneyやStable Diffusionに代表されるAI画像生成...

ニューラル ネットワークのデバッグにイライラしていませんか?ここに16のヒントがあります

[[201444]]ニューラルネットワークのデバッグは、専門家にとっても困難な作業です。数百万のパラ...

...

アストラゼネカはPyTorchベースのアルゴリズムを使用して新薬を発見

[51CTO.com クイック翻訳] Facebookの機械学習フレームワークPyTorchは、20...

人工知能技術に注目し導入すべき3つの理由

AI の導入が拡大しているにもかかわらず、多くの IT リーダーは AI のリスクと機会を取り巻く不...