SQL Server 2008 の 9 つのデータマイニングアルゴリズム

1. 決定木アルゴリズム

決定木は判断木とも呼ばれ、バイナリツリーやマルチブランチツリーに似たツリー構造です。決定木はサンプル属性をノードとして使用し、属性値をブランチとして使用します。これはフローチャートと似たプロセスであり、各内部ノードは属性に対するテストを表し、各ブランチはテスト出力を表し、各リーフノードはクラスまたはクラス分布を表します。多数のサンプルの特性を分析し、要約します。ルートノードはすべてのサンプルの中で最も情報量が多い属性であり、中間ノードは、このノードをルートとするサブツリーに含まれるサンプルサブセットの中で最も情報量が多い属性であり、決定木のリーフノードはサンプルのカテゴリ値です。

ツリーのルートノードから開始して、テスト条件が検査記録に使用され、テスト結果に応じて適切なブランチが選択されます。ブランチに沿って、別の内部ノードに到達するか、新しいテスト条件が使用されるか、またはリーフノードに到達します。リーフノードのクラス名が検査記録に割り当てられます。決定木の各ブランチは、新しい決定ノード、またはリーフと呼ばれるツリーの終端のいずれかです。決定木を上から下まで辿る過程で、各ノードで質問に遭遇します。各ノードでの質問に対する異なる回答は異なる分岐につながり、最終的にリーフノードに到達します。このプロセスは、決定木を使用して分類するプロセスです。決定木アルゴリズムは、1 つ以上の予測変数からカテゴリ従属変数の個々のケースの傾向変化関係を予測できます。

SQL Server 2008 では、マイニングモデルビューアーを通じてデシジョンツリーモデルを表示できます。図1に示すように。

図 1 では、決定木の表示が一連の分割で構成されており、最も重要な分割がアルゴリズムによって決定され、ビューアーの左側の「すべて」ノードに配置されていることがわかります。他の分割は右側に表示されます。依存関係ネットワークは、入力属性とモデル内の予測可能な属性間の依存関係を示します。また、スライダーを使用して依存関係の強度をフィルタリングすることもできます。

2. クラスター分析アルゴリズム

クラスタリング分析アルゴリズムは、幾何学的空間における個々のデータポイント間の距離に基づいて、個人間の類似性を測定します。距離が近いほど類似性が高くなり、1 つのカテゴリに分類しやすくなります。クラスターが最初に定義された後、アルゴリズムはクラスターがポイントのグループをどの程度適切に表しているかを計算し、それらのグループを再定義して、データをより適切に表すクラスターを作成しようとします。アルゴリズムは、分類を再定義しても結果を改善できなくなるまで、このプロセスをループします。簡単に言えば、クラスタリングとは、データオブジェクトのコレクションを、類似のオブジェクトで構成される複数のクラスにグループ化するプロセスです。クラスタリングは、ビジネスにおける顧客分析に使用されます。顧客データベースからさまざまな顧客グループを発見し、さまざまな顧客グループの行動パターンを分析できます。

SQL Server 2008 では、マイニングモデルビューアーを通じてクラスタリング分析モデルを表示できます。図2に示すように。

図 2 の分類関係図は、クラス間の相関の強さを示しています。分類プロファイル図は、従属変数と独立変数間の相関の強さを理解するのに役立ちます。分類機能は主に各カテゴリの特性を表します。分類比較は、主に 2 つのカテゴリ間の特性の比較を示します。

3. ナイーブベイズアルゴリズム

Naive Bayes アルゴリズムは、予測モデリング用に Microsoft SQL Server Analysis Services によって提供される分類アルゴリズムです。ナイーブベイズアルゴリズムは、特定のクラスに対する属性値の影響は他の属性の値とは無関係であると仮定するベイズの定理を使用します。このアルゴリズムは他のアルゴリズムと比較して計算量が少なく、入力列と予測可能な列の関係を検出するためのマイニングモデルを迅速に生成できます。このアルゴリズムは、初期データ検出に使用できます。大規模なデータベースで使用すると、決定木やニューラルネットワークに匹敵する高い精度と速度も示されます。

このアルゴリズムは教師あり学習法を採用しており、分類の前に分類の種類を事前に知っておく必要があります。トレーニングサンプルから学習することで、分類を効果的に実行できます。つまり、トレーニングサンプルの中心概念は、トレーニングサンプル内の属性関係を通じて生成され、生成されたこれらの中心概念は、分類されていないデータオブジェクトを予測するために使用されます。

SQL Server 2008 では、マイニングモデルビューアーを通じて Naive Bayes モデルを表示できます。図3に示すように。

図 3 では、依存関係ネットワークによってデータの分布に関するさらなる洞察が提供されます。プロパティプロファイルは、各変数の特性分布についての洞察を提供します。属性特性は、さまざまなグループ分類の基本的な特性確率を示すことができます。属性比較は、属性間の特性の比較を提示することです。

4. 相関ルールアルゴリズム

関連付けアルゴリズムのルールは、データベース内の変数と個体間の関係の度合いを発見すること、つまり、大量のデータ内のアイテムセット間の興味深い関連性または関連する接続を発見することです。たとえば、関連ルールマイニングでは、買い物かご分析が典型的な例です。買い物かご分析は、顧客が購入したさまざまな商品の関係を分析して、顧客の購買習慣を探り、販売者がマーケティング戦略を策定できるようにするプロセスです。関連ルールアルゴリズムには、サポートと信頼度という 2 つの重要なパラメーターがあります。サポートとは、アイテムセット X と Y でイベント X と Y が同時に発生する確率を指します。信頼度は、アイテムセット X と Y でイベント X が発生する確率の下でイベント Y が発生する確率を指します。

SQL Server 2008 では、マイニングモデルビューアーを通じて関連ルールモデルを表示できます。図4に示すように

図 4 では、ルールはアルゴリズムによって生成された関連ルールを表示できます。これにより、関連ルールの内容と、そのサポートと信頼度を理解することができます。アイテムセットでは、アルゴリズムによって生成されたオブジェクトグループを表示できるため、各オブジェクトグループの内容とそのサポートを理解できます。依存関係ネットワークは、製品間の相関関係を提示し、グラフィックを通じて製品間の相関関係を理解することができます。

5. シーケンシャル分析とクラスター分析アルゴリズム

シーケンスクラスタリングアルゴリズムは、Microsoft SQL Server Analysis Services によって提供されるシーケンス分析アルゴリズムです。このアルゴリズムを使用すると、パスまたはシーケンスをたどってリンクできるイベントを含むデータを探索できます。アルゴリズムは、同一のシーケンスをグループ化または分類することによって、最も一般的なシーケンスを見つけます。

SQL Server 2008 では、マイニングモデルビューアーを通じて順次分析モデルを表示できます。図5に示すように

図 5 では、分類関係図にマイニングモデル内のすべての分類を表示でき、分類間の線の明るさは分類の類似性を示しています。カテゴリの右側にあるスライダーを調整することで、表示される接続の数を調整できます。クラスタープロファイルプロットは、アルゴリズムによって作成されたクラスターの全体像を提供し、クラスター内の各属性と属性の分布を表示します。カテゴリ特性を使用すると、分類を構成する特性を調べることができます。カテゴリ比較では、2 つのカテゴリのプロパティを比較できます。状態遷移カテゴリを選択すると、選択したカテゴリ内のシーケンス状態間の遷移を参照できます。

6. タイミングアルゴリズム

時系列アルゴリズムは、連続値の予測に最適化されたいくつかの回帰アルゴリズムを提供し、時系列を主な傾向成分と季節変動成分に分解し、理論モデルが現象を反映できるかどうかをテストします。

SQL Server 2008 では、マイニングモデルビューアーを通じて時系列モデルを表示できます。図6に示すように

図6では、チャートバーに予測変数の過去の値と予測値、および誤差間隔が表示されています。モデルは、完成したモデルを含むアルゴリズムをツリーとして表示します。

7. ニューラルネットワークアルゴリズム

ニューラルネットワークは接続された入力出力ユニットのセットであり、各接続には重みが関連付けられています。トレーニングおよび学習フェーズでは、入力サンプルの正しいクラスラベルを予測できるように、トレーニングネットワークの重みが調整されます。ニューラルネットワークアルゴリズムは、最大 3 層のニューロンで構成されるネットワークを作成します。これらの層は、入力層、オプションの隠し層、および出力層です。入力層: 入力ニューロンは、データマイニングモデルのすべての入力属性値とその確率を定義します。隠しニューロンは入力ニューロンから入力を受け取り、出力ニューロンに出力を提供します。隠し層では、さまざまな入力確率に重みが割り当てられます。重みは、特定の入力の隠れニューロンへの関連性または重要性を表します。入力に割り当てられる重みが大きいほど、その入力の値は重要になります。出力ニューロンは、データマイニングモデルの予測可能な属性値を表します。

SQL Server 2008 では、マイニングモデルビューアーを通じてニューラルネットワークモデルを表示できます。図7に示すように

図 7 では、入力はニューラルネットワークモデルが入力として使用する属性と属性値を選択します。出力は、出力を使用するニューラルネットワークのプロパティを指定します。変数の指定された属性の右側にあるバーは、指定された入力属性の状態が優先される出力属性の状態を表します。バーのサイズは、出力状態が入力状態にどの程度近づいているかを示します。

8. ロジスティック回帰アルゴリズム

ロジスティック回帰は、入力ドメイン値と出力フィールドの各カテゴリの確率を関連付ける一連の方程式を確立することにより、入力ドメイン値に基づいてレコードを分類する統計手法です。このモデルは、バイナリまたは順序付けられた従属変数と説明変数の関係を分析し、独立変数を使用して従属変数が特定の値になる確率を予測します。モデルが生成されると、それを使用して新しいデータの確率を推定できます。最も高い確率を持つターゲットクラスが、そのレコードの予測出力値として割り当てられます。ロジスティック回帰アルゴリズムは、ニューラルネットワークアルゴリズムのバリエーションであり、複数の要因が 1 組の結果に与える影響を判断するために使用されます。入力と出力の関係をモデル化することにより。各入力が出力に与える影響を測定し、完成したモデルにおけるさまざまな入力の貢献度を評価します。

9. 線形回帰アルゴリズム

線形回帰アルゴリズムは、統計と予測によく使用される方法です。これは、決定木アルゴリズムの変形です。従属変数と独立変数間の線形関係を計算し、入力フィールドに基づいて出力フィールドを予測するための最適な線形方程式を推定し、その関係を使用して予測を行うのに役立ちます。直線または平面で表される線形回帰を使用して 2 つの連続した列間の関係を決定し、データ列間の関係を評価します。

<<: 8 クイーン問題を解く C# アルゴリズムの簡単な分析

>>: ASP.NET データ暗号化を実現する対称暗号化アルゴリズム