SQL Server 2008 のデータ マイニングのための 9 つのアルゴリズム

SQL Server 2008 のデータ マイニングのための 9 つのアルゴリズム

SQL Server 2008 データ マイニング決定木アルゴリズム

決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツリー構造です。決定木はサンプル属性をノードとして使用し、属性値をブランチとして使用します。これはフローチャートと似たプロセスであり、各内部ノードは属性に対するテストを表し、各ブランチはテスト出力を表し、各リーフノードはクラスまたはクラス分布を表します。多数のサンプルの特性を分析し、要約します。ルート ノードはすべてのサンプルの中で最も情報量が多い属性であり、中間ノードは、このノードをルートとするサブツリーに含まれるサンプル サブセットの中で最も情報量が多い属性であり、決定木のリーフ ノードはサンプルのカテゴリ値です。

ツリーのルート ノードから開始して、テスト条件が検査記録に使用され、テスト結果に応じて適切なブランチが選択されます。ブランチに沿って、別の内部ノードに到達するか、新しいテスト条件が使用されるか、またはリーフ ノードに到達します。リーフ ノードのクラス名が検査記録に割り当てられます。決定木の各ブランチは、新しい決定ノード、またはリーフと呼ばれるツリーの終端のいずれかです。決定木を上から下まで辿る過程で、各ノードで質問に遭遇します。各ノードでの質問に対する異なる回答は異なる分岐につながり、最終的にリーフ ノードに到達します。このプロセスは、決定木を使用して分類するプロセスです。決定木アルゴリズムは、1 つ以上の予測変数からカテゴリ従属変数の個々のケースの傾向変化関係を予測できます。

SQL Server 2008 では、マイニング モデル ビューアーを通じてデシジョン ツリー モデルを表示できます。図1に示すように。

図1

図 1 では、決定木の表示が一連の分割で構成されており、最も重要な分割がアルゴリズムによって決定され、ビューアーの左側の「すべて」ノードに配置されていることがわかります。他の分割は右側に表示されます。依存関係ネットワークは、入力属性とモデル内の予測可能な属性間の依存関係を示します。また、スライダーを使用して依存関係の強度をフィルタリングすることもできます。

SQL Server 2008 データ マイニング クラスター分析アルゴリズム

クラスタリング分析アルゴリズムは、幾何学的空間における個々のデータ ポイント間の距離に基づいて、個人間の類似性を測定します。距離が近いほど類似性が高くなり、1 つのカテゴリに分類しやすくなります。クラスターが最初に定義された後、アルゴリズムはクラスターがポイントのグループをどの程度適切に表しているかを計算し、それらのグループを再定義して、データをより適切に表すクラスターを作成しようとします。アルゴリズムは、分類を再定義しても結果を改善できなくなるまで、このプロセスをループします。簡単に言えば、クラスタリングとは、データ オブジェクトのコレクションを、類似のオブジェクトで構成される複数のクラスにグループ化するプロセスです。クラスタリングは、ビジネスにおける顧客分析に使用されます。顧客データベースからさまざまな顧客グループを発見し、さまざまな顧客グループの行動パターンを分析できます。

SQL Server 2008 では、マイニング モデル ビューアーを通じてクラスタリング分析モデルを表示できます。図2に示すように。

図2

図 2 の分類関係図は、クラス間の相関の強さを示しています。分類プロファイル図は、従属変数と独立変数間の相関の強さを理解するのに役立ちます。分類機能は主に各カテゴリの特性を表します。分類比較は、主に 2 つのカテゴリ間の特性の比較を示します。

SQL Server 2008 のデータ マイニングのための Naive Bayes アルゴリズム

Naive Bayes アルゴリズムは、予測モデリング用に Microsoft SQL Server Analysis Services によって提供される分類アルゴリズムです。ナイーブベイズアルゴリズムは、特定のクラスに対する属性値の影響は他の属性の値とは無関係であると仮定するベイズの定理を使用します。このアルゴリズムは他のアルゴリズムと比較して計算量が少なく、入力列と予測可能な列の関係を検出するためのマイニング モデルを迅速に生成できます。このアルゴリズムは、初期データ検出に使用できます。大規模なデータベースで使用すると、決定木やニューラル ネットワークに匹敵する高い精度と速度も示されます。

このアルゴリズムは教師あり学習法を採用しており、分類の前に分類の種類を事前に知っておく必要があります。トレーニングサンプルから学習することで、分類を効果的に実行できます。つまり、トレーニング サンプルの中心概念は、トレーニング サンプル内の属性関係を通じて生成され、生成されたこれらの中心概念は、分類されていないデータ オブジェクトを予測するために使用されます。 SQL Server 2008 では、マイニング モデル ビューアーを通じて Naive Bayes モデルを表示できます。図3に示すように。

図 3 図 3 では、依存関係ネットワークによってデータの分布に関するさらなる洞察が得られます。プロパティ プロファイルは、各変数の特性分布についての洞察を提供します。属性特性は、さまざまなグループ分類の基本的な特性確率を示すことができます。属性比較は、属性間の特性の比較を提示することです。

SQL Server 2008 データ マイニング関連ルール アルゴリズム

関連付けアルゴリズムのルールは、データベース内の変数と個体間の関係の度合いを発見すること、つまり、大量のデータ内のアイテム セット間の興味深い関連性または関連する接続を発見することです。たとえば、関連ルールマイニングでは、買い物かご分析が典型的な例です。買い物かご分析は、顧客が購入したさまざまな商品の関係を分析して、顧客の購買習慣を探り、販売者がマーケティング戦略を策定できるようにするプロセスです。関連ルール アルゴリズムには、サポートと信頼度という 2 つの重要なパラメーターがあります。サポートとは、アイテム セット X と Y でイベント X と Y が同時に発生する確率を指します。信頼度は、アイテム セット X と Y でイベント X が発生する確率の下でイベント Y が発生する確率を指します。

SQL Server 2008 では、マイニング モデル ビューアーを通じて関連ルール モデルを表示できます。図4に示すように

図 4 では、ルールはアルゴリズムによって生成された関連ルールを表示できます。これにより、関連ルールの内容と、そのサポートと信頼度を理解することができます。アイテム セットでは、アルゴリズムによって生成されたオブジェクト グループを表示できるため、各オブジェクト グループの内容とそのサポートを理解できます。依存関係ネットワークは、製品間の相関関係を提示し、グラフィックを通じて製品間の相関関係を理解することができます。

SQL Server 2008 データ マイニング シーケンシャル分析とクラスター分析アルゴリズム

シーケンス クラスタリング アルゴリズムは、Microsoft SQL Server Analysis Services によって提供されるシーケンス分析アルゴリズムです。このアルゴリズムを使用すると、パスまたはシーケンスをたどってリンクできるイベントを含むデータを探索できます。アルゴリズムは、同一のシーケンスをグループ化または分類することによって、最も一般的なシーケンスを見つけます。

SQL Server 2008では、マイニングモデルビューアを通じてシーケンシャル分析モデルを表示できます。図5に示すように

図5

図 5 では、分類関係図にマイニング モデル内のすべての分類を表示でき、分類間の線の明るさは分類の類似性を示しています。カテゴリの右側にあるスライダーを調整することで、表示される接続の数を調整できます。クラスター プロファイル プロットは、アルゴリズムによって作成されたクラスターの全体像を提供し、クラスター内の各属性と属性の分布を表示します。カテゴリ特性を使用すると、分類を構成する特性を調べることができます。カテゴリ比較では、2 つのカテゴリのプロパティを比較できます。状態遷移 カテゴリを選択すると、選択したカテゴリ内のシーケンス状態間の遷移を参照できます。

SQL Server 2008 データ マイニング時系列アルゴリズム

時系列アルゴリズムは、連続値の予測に最適化されたいくつかの回帰アルゴリズムを提供し、時系列を主な傾向成分と季節変動成分に分解し、理論モデルが現象を反映できるかどうかをテストします。

SQL Server 2008では、マイニングモデルビューアを通じて時系列モデルを表示できます。図6に示すように

図6

図6では、チャートバーに予測変数の過去の値と予測値、および誤差間隔が表示されています。モデルは、完成したモデルを含むアルゴリズムをツリーとして表示します。

SQL Server 2008 のデータ マイニングのためのニューラル ネットワーク アルゴリズム

ニューラル ネットワークは接続された入力出力ユニットのセットであり、各接続には重みが関連付けられています。トレーニングおよび学習フェーズでは、入力サンプルの正しいクラス ラベルを予測できるように、トレーニング ネットワークの重みが調整されます。ニューラル ネットワーク アルゴリズムは、最大 3 層のニューロンで構成されるネットワークを作成します。これらの層は、入力層、オプションの隠し層、および出力層です。入力層: 入力ニューロンは、データ マイニング モデルのすべての入力属性値とその確率を定義します。隠しニューロンは入力ニューロンから入力を受け取り、出力ニューロンに出力を提供します。隠し層では、さまざまな入力確率に重みが割り当てられます。重みは、特定の入力の隠れニューロンへの関連性または重要性を表します。入力に割り当てられる重みが大きいほど、その入力の値は重要になります。出力ニューロンは、データマイニングモデルの予測可能な属性値を表します。

SQL Server 2008 では、マイニング モデル ビューアーを通じてニューラル ネットワーク モデルを表示できます。図7に示すように

図7

図 7 では、入力はニューラル ネットワーク モデルが入力として使用する属性と属性値を選択します。出力は、出力を使用するニューラル ネットワークのプロパティを指定します。変数の指定された属性の右側にあるバーは、指定された入力属性の状態が優先される出力属性の状態を表します。 バーのサイズは、出力状態が入力状態にどの程度近づいているかを示します。

SQL Server 2008 データ マイニングのロジスティック回帰アルゴリズム

ロジスティック回帰は、入力ドメイン値と出力フィールドの各カテゴリの確率を関連付ける一連の方程式を確立することにより、入力ドメイン値に基づいてレコードを分類する統計手法です。このモデルは、バイナリまたは順序付けられた従属変数と説明変数の関係を分析し、独立変数を使用して従属変数が特定の値になる確率を予測します。モデルが生成されると、それを使用して新しいデータの確率を推定できます。最も高い確率を持つターゲット クラスが、そのレコードの予測出力値として割り当てられます。ロジスティック回帰アルゴリズムは、ニューラル ネットワーク アルゴリズムのバリエーションであり、複数の要因が 1 組の結果に与える影響を判断するために使用されます。入力と出力の関係をモデル化することにより。各入力が出力に与える影響を測定し、完成したモデルにおけるさまざまな入力の貢献度を評価します。

SQL Server 2008 データ マイニング線形回帰アルゴリズム

線形回帰アルゴリズムは、統計と予測によく使用される方法です。これは、決定木アルゴリズムの変形です。従属変数と独立変数間の線形関係を計算し、入力フィールドに基づいて出力フィールドを予測するための最適な線形方程式を推定し、その関係を使用して予測を行うのに役立ちます。直線または平面で表される線形回帰を使用して 2 つの連続した列間の関係を決定し、データ列間の関係を評価します。

<<:  XML 圧縮アルゴリズムについての簡単な説明

>>:  JSPフォーラムツリー構造を実装するための特定のアルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

ボストン・ダイナミクスがマスク氏を激しく批判、それは単なる自慢なのか、それとも現実なのか?テスラロボットに関する3つの大きな推測

テスラのロボットに関しては、まず主要なタイムラインを確認しましょう。実際、テスラのロボットの構想は1...

AIをやりたいのですが、開発ツールはどのように選べばいいですか?この入門ガイドはあなたのためのものです

[[207302]]現代の人工知能は企業に多くの利益をもたらすと同時に、機械の認知能力も大幅に向上さ...

ロボティック プロセス オートメーション (RPA) を構築するための基本知識とベスト プラクティス

[[442548]]世界中でロボティックプロセスオートメーション (RPA) が使用され、ビジネスの...

今後 20 年以内に、完全自動運転のコネクテッドカーが登場するでしょうか?

20 年後の旅行と交通の未来はどうなるでしょうか? おそらく、この質問への答えははるかに複雑です。...

ペンシルバニア大学は、ディープニューラルネットワークの対称構造を研究し、層ごとの剥離解析モデルを提案した。

[[435206]]近年、ディープニューラルネットワークは多くの科学技術上の問題において優れたパフ...

北京大学光華管理学院 周連:人工知能は中間所得層にどのような影響を与えるのでしょうか?

オピニオンリーダー | 北京大学光華管理学院文:周 連(北京大学光華管理学院副学長)新興技術である人...

年収100万ドルでもまだ足りない。AI人材はどれくらい高価なのか?

シリコンバレーで最も隠し切れない秘密の一つは、人工知能の専門家が実際に給料やボーナスでどれくらい稼い...

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

この記事は、著者が長年にわたり蓄積し収集してきた知識とスキルのマップです。編集者は、これを周囲の技術...

...

Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。過去数ヶ月を振り返ると、R...

...

違反した企業は売上高の6%の罰金を科せられる可能性がある。EUは人工知能技術の監督を強化する予定だ。

海外メディアの報道によると、欧州委員会は最近、企業がEUの規則に違反し、禁止されている人工知能アプリ...

人工知能と機械学習: フィンテック業界の新たな青写真

企業は AI と機械学習を十分に活用していません。フィンテック業界で人工知能(AI)と機械学習(ML...

安定したビデオ拡散がここにあります、コードウェイトはオンラインです

AI描画で有名なStability AIが、ついにAI生成動画の分野に参入した。今週の火曜日、Sta...

研究により機械学習のバックドア問題が発見される

翻訳者 | 李睿校正:孫淑娟第三者が機械学習モデルを提供し、そこに悪意のあるバックドアを密かに埋め込...