分類アルゴリズムの概要

分類アルゴリズムの概要

[[154315]]

決定木分類アルゴリズム

決定木誘導は古典的な分類アルゴリズムです。

これは、トップダウン、再帰、ブレークダウン方式で決定木を構築します。

情報ゲイン メトリックは、ツリーの各ノードでテスト属性を選択するために使用されます。

生成された決定木からルールを抽出できます。
KNN法(K近傍法):

KNN 法、または K 最近傍法は、1968 年に Cover と Hart によって初めて提案され、理論的には比較的成熟した方法です。

この方法の考え方は非常にシンプルで直感的です。サンプルの最も類似したk個のサンプル(つまり、特徴空間内の最も近いサンプル)のほとんどが特定のカテゴリに属する​​場合、サンプルもこのカテゴリに属します。

この方法では、分類決定における 1 つまたは複数の最も近いサンプルのカテゴリに基づいて、分類するサンプルのカテゴリのみを決定します。

KNN 法も原理的には極限定理に依存していますが、カテゴリ決定を行う際にはごく少数の隣接サンプルにのみ関連します。

したがって、この方法により、サンプルの不均衡の問題をより適切に回避できます。

さらに、KNN 法は、カテゴリを決定するためにクラス領域を区別する方法ではなく、限られた隣接サンプルに主に依存するため、KNN 法は、より多くの交差または重複したクラス領域で分類されるサンプル セットに他の方法よりも適しています。

この方法の欠点は、分類するテキストごとに、K 個の最近傍を取得するためにすべての既知のサンプルとの距離を計算する必要があるため、大量の計算が必要になることです。

現在一般的に使用されている解決策は、既知のサンプルポイントを事前にクリップし、分類にほとんど影響のないサンプルを削除することです。

また、リバース KNN 方式もあり、これにより KNN アルゴリズムの計算の複雑さが軽減され、分類の効率が向上します。

このアルゴリズムは、サンプル サイズが大きいドメインの自動分類に適していますが、サンプル サイズが小さいドメインにこのアルゴリズムを使用すると、誤分類が発生する可能性が高くなります。


SVM法:

SVM 法、すなわちサポート ベクター マシン法は、1995 年に Vapnik らによって提案され、比較的優れたパフォーマンス指標を持っています。

この方法は、統計学習理論に基づいた機械学習手法です。

学習アルゴリズムにより、SVM は分類に優れた識別能力を持つサポート ベクトルを自動的に見つけることができます。このようにして構築された分類器はクラス間の間隔を最適化できるため、適応性が向上し、分類精度が高くなります。

この方法では、各ドメインの境界サンプルのカテゴリに基づいて最適な分類結果を決定するだけです。

サポートベクターマシンアルゴリズムの目的は、トレーニングセット内のデータを分離でき、超平面に垂直な方向に沿ってクラスドメイン境界からの距離が最小となる超平面 H(d) を見つけることです。そのため、SVM メソッドは最大マージンアルゴリズムとも呼ばれます。

分類するサンプル セット内のサンプルのほとんどはサポート ベクターではありません。これらのサンプルを削除または削減しても、分類結果には影響しません。サンプルが小さい場合、自動分類では SVM 方式の方が分類結果が良くなります。

VSM方式:

VSM 法、すなわちベクトル空間モデル法は、1960 年代後半に Salton らによって提案されました。これは情報検索のための最も初期かつ最も有名な数学モデルです。

基本的な考え方は、ドキュメントを重み付けされた特徴ベクトルとして表現することです: D=D(T1, W1; T2, W2; ...; Tn, Wn)、次にテキストの類似度を計算して分類するサンプルのカテゴリを決定します。

テキストを空間ベクトルモデルとして表現すると、テキストの類似性は特徴ベクトル間の内積で表現できます。

実際のアプリケーションでは、VSM メソッドは一般に、コーパス内のトレーニング サンプルと分類システムに基づいてカテゴリ ベクトル空間を確立します。

分類するサンプルを分類する必要がある場合、分類するサンプルと各カテゴリ ベクトル間の類似度、つまり内積を計算し、最も類似度の高いカテゴリを分類するサンプルに対応するカテゴリとして選択するだけで済みます。

VSM 法では、事前にカテゴリ空間ベクトルを計算する必要があり、空間ベクトルの設定はカテゴリベクトルに含まれる特徴項目に大きく依存します。

研究によると、カテゴリに含まれる非ゼロの特徴項目の数が多いほど、そのカテゴリの各特徴項目の表現力は弱くなります。

したがって、他の分類方法と比較して、VSM 法は専門文献の分類に適しています。

ベイズ法:

ベイズ法は、既知の事前確率とクラス条件付き確率を条件とするパターン分類法です。分類対象となるサンプルの分類結果は、各クラスドメイン内のサンプルの総数に依存します。

トレーニング サンプル セットが M 個のカテゴリに分割され、C={c1,…,ci,…cM} と表されるとします。各カテゴリの事前確率は P(ci)、i=1,2,…,M です。サンプル セットが非常に大きい場合、P(ci) = クラス ci のサンプル数 / サンプルの総数と考えることができます。

分類するサンプル X について、クラス cj に属するクラス条件付き確率は P(X|ci) です。ベイズの定理によれば、クラス cj の事後確率 P(ci|X) は次のように得られます。

P(ci|x)=P(x|ci)·P(ci)/P(x)(1)

P(ci|X)=Ma**(cj|X)、i=1,2,…,M、j=1,2,…,Mの場合、x∈ci(2)

式(2)は事後確率決定基準である。式(1)を式(2)に代入すると、次のようになる。

P(x|ci)P(ci)=Maxj[P(x|cj)P(cj)], i=1,2,…,M, j=1,2,…,Mならばx∈ci

これは一般的に使用されるベイズ分類の決定基準です。長期にわたる研究の結果、ベイズ分類法は理論的に完全に実証され、非常に広く使用されるようになりました。

ベイズ法の弱点は、実際の状況では、カテゴリ母集団の確率分布と各サンプルタイプの確率分布関数(または密度関数)が不明なことが多いことです。それらを取得するには、サンプルが十分に大きくなければなりません。

また、ベイズ法では、テキストを表現するキーワードが互いに独立していることが求められますが、この条件を実際のテキストで満たすことは一般的に困難です。そのため、この方法では効果の面で理論上の最適値を達成できないことがよくあります。
ニューラルネットワーク:

ニューラル ネットワーク分類アルゴリズムの重要なポイントは、しきい値ロジック ユニットを構築することです。値ロジック ユニットは、重み付けされた係数のセットを入力し、それらを合計し、合計が特定のしきい値に達するか超過した場合に量を出力できるオブジェクトです。

入力値X1、X2、…、Xnとそれらの重み係数W1、W2、…、Wnがある場合、計算されたXi*Wiの合計は励起層a = (X1 * W1)+(X2 * W2)+…+(Xi * Wi)+…+ (Xn * Wn)を生成します。ここで、Xiは各レコードまたはその他のパラメータの発生頻度、Wiはリアルタイム機能評価モデルで取得された重み係数です。

ニューラル ネットワークは、経験的リスク最小化の原理に基づく学習アルゴリズムです。層とニューロンの数を決定するのが難しい、局所的最小値に陥る傾向がある、過剰学習現象など、いくつかの固有の欠陥があります。これらの固有の欠陥は、SVM アルゴリズムでうまく解決できます。

<<:  Java でよく使われる 7 つのソート アルゴリズムの概要

>>:  人工知能アルゴリズムを採用したGoogle検索は恐ろしい

ブログ    
ブログ    

推薦する

なぜ AIoT が将来の主流となるのでしょうか?

エンジニアであれ消費者であれ、AIとIoT技術が私たちの生活にもたらした変化は誰もが感じています。ビ...

...

人工知能の簡単な歴史 | (1) ディープラーニング、人工知能の新たな盛り上がり

人工知能はまだ少し遠く、Google の巨大なデータセンターの部屋や神秘的な MIT ロボット工学研...

ホットマネーの流入が止まると、2019年の人工知能業界の浮き沈みに関する考察

昨年後半から、インターネット業界の人々は生活がますます困難になっていると感じています。かつてセルフメ...

...

ウクライナ、写真を通じて殺害されたロシア兵の家族を発見?顔認識が初めて軍事紛争で大規模に使用され、大きな論争を巻き起こしている

報道によると、ウクライナが使用している顔データベースは、米国に本社を置くテクノロジー企業の「Clea...

よく使われる「生成AIライブラリ」の総合ガイド

皆さんこんにちは、Luga です。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロ...

ナレッジグラフの紹介と応用

[[376661]]人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知...

GPT-4 は P≠NP であると結論付け、Terence Tao の予測は実現しました。世界の数学の問題を解く「ソクラテス的推論」対話97ラウンド

大規模言語モデルは実際に数学の定理の研究に使用できます。最近、Microsoft Research ...

...

信じられない! XiaoIceのデジタルツイン仮想人物は70日間ライブ放送されましたが、誰もそれが本物の人間ではないことに気づきませんでした

[[441368]]中国ビジネスニュースは70日間生放送されましたが、アンカーがデジタルツインの仮想...

サイバーセキュリティにおける AI: 誇大宣伝と現実

人工知能(AI)の可能性は魅力的です。セキュリティ管理者への警鐘。自律的な自己学習ソリューションの力...

機械学習/ディープラーニング プロジェクトを始める 8 つの方法

[[392342]] [51CTO.com クイック翻訳]探索的データ分析から自動機械学習 (Aut...

...

...