分類アルゴリズムの概要

分類アルゴリズムの概要

[[154315]]

決定木分類アルゴリズム

決定木誘導は古典的な分類アルゴリズムです。

これは、トップダウン、再帰、ブレークダウン方式で決定木を構築します。

情報ゲイン メトリックは、ツリーの各ノードでテスト属性を選択するために使用されます。

生成された決定木からルールを抽出できます。
KNN法(K近傍法):

KNN 法、または K 最近傍法は、1968 年に Cover と Hart によって初めて提案され、理論的には比較的成熟した方法です。

この方法の考え方は非常にシンプルで直感的です。サンプルの最も類似したk個のサンプル(つまり、特徴空間内の最も近いサンプル)のほとんどが特定のカテゴリに属する​​場合、サンプルもこのカテゴリに属します。

この方法では、分類決定における 1 つまたは複数の最も近いサンプルのカテゴリに基づいて、分類するサンプルのカテゴリのみを決定します。

KNN 法も原理的には極限定理に依存していますが、カテゴリ決定を行う際にはごく少数の隣接サンプルにのみ関連します。

したがって、この方法により、サンプルの不均衡の問題をより適切に回避できます。

さらに、KNN 法は、カテゴリを決定するためにクラス領域を区別する方法ではなく、限られた隣接サンプルに主に依存するため、KNN 法は、より多くの交差または重複したクラス領域で分類されるサンプル セットに他の方法よりも適しています。

この方法の欠点は、分類するテキストごとに、K 個の最近傍を取得するためにすべての既知のサンプルとの距離を計算する必要があるため、大量の計算が必要になることです。

現在一般的に使用されている解決策は、既知のサンプルポイントを事前にクリップし、分類にほとんど影響のないサンプルを削除することです。

また、リバース KNN 方式もあり、これにより KNN アルゴリズムの計算の複雑さが軽減され、分類の効率が向上します。

このアルゴリズムは、サンプル サイズが大きいドメインの自動分類に適していますが、サンプル サイズが小さいドメインにこのアルゴリズムを使用すると、誤分類が発生する可能性が高くなります。


SVM法:

SVM 法、すなわちサポート ベクター マシン法は、1995 年に Vapnik らによって提案され、比較的優れたパフォーマンス指標を持っています。

この方法は、統計学習理論に基づいた機械学習手法です。

学習アルゴリズムにより、SVM は分類に優れた識別能力を持つサポート ベクトルを自動的に見つけることができます。このようにして構築された分類器はクラス間の間隔を最適化できるため、適応性が向上し、分類精度が高くなります。

この方法では、各ドメインの境界サンプルのカテゴリに基づいて最適な分類結果を決定するだけです。

サポートベクターマシンアルゴリズムの目的は、トレーニングセット内のデータを分離でき、超平面に垂直な方向に沿ってクラスドメイン境界からの距離が最小となる超平面 H(d) を見つけることです。そのため、SVM メソッドは最大マージンアルゴリズムとも呼ばれます。

分類するサンプル セット内のサンプルのほとんどはサポート ベクターではありません。これらのサンプルを削除または削減しても、分類結果には影響しません。サンプルが小さい場合、自動分類では SVM 方式の方が分類結果が良くなります。

VSM方式:

VSM 法、すなわちベクトル空間モデル法は、1960 年代後半に Salton らによって提案されました。これは情報検索のための最も初期かつ最も有名な数学モデルです。

基本的な考え方は、ドキュメントを重み付けされた特徴ベクトルとして表現することです: D=D(T1, W1; T2, W2; ...; Tn, Wn)、次にテキストの類似度を計算して分類するサンプルのカテゴリを決定します。

テキストを空間ベクトルモデルとして表現すると、テキストの類似性は特徴ベクトル間の内積で表現できます。

実際のアプリケーションでは、VSM メソッドは一般に、コーパス内のトレーニング サンプルと分類システムに基づいてカテゴリ ベクトル空間を確立します。

分類するサンプルを分類する必要がある場合、分類するサンプルと各カテゴリ ベクトル間の類似度、つまり内積を計算し、最も類似度の高いカテゴリを分類するサンプルに対応するカテゴリとして選択するだけで済みます。

VSM 法では、事前にカテゴリ空間ベクトルを計算する必要があり、空間ベクトルの設定はカテゴリベクトルに含まれる特徴項目に大きく依存します。

研究によると、カテゴリに含まれる非ゼロの特徴項目の数が多いほど、そのカテゴリの各特徴項目の表現力は弱くなります。

したがって、他の分類方法と比較して、VSM 法は専門文献の分類に適しています。

ベイズ法:

ベイズ法は、既知の事前確率とクラス条件付き確率を条件とするパターン分類法です。分類対象となるサンプルの分類結果は、各クラスドメイン内のサンプルの総数に依存します。

トレーニング サンプル セットが M 個のカテゴリに分割され、C={c1,…,ci,…cM} と表されるとします。各カテゴリの事前確率は P(ci)、i=1,2,…,M です。サンプル セットが非常に大きい場合、P(ci) = クラス ci のサンプル数 / サンプルの総数と考えることができます。

分類するサンプル X について、クラス cj に属するクラス条件付き確率は P(X|ci) です。ベイズの定理によれば、クラス cj の事後確率 P(ci|X) は次のように得られます。

P(ci|x)=P(x|ci)·P(ci)/P(x)(1)

P(ci|X)=Ma**(cj|X)、i=1,2,…,M、j=1,2,…,Mの場合、x∈ci(2)

式(2)は事後確率決定基準である。式(1)を式(2)に代入すると、次のようになる。

P(x|ci)P(ci)=Maxj[P(x|cj)P(cj)], i=1,2,…,M, j=1,2,…,Mならばx∈ci

これは一般的に使用されるベイズ分類の決定基準です。長期にわたる研究の結果、ベイズ分類法は理論的に完全に実証され、非常に広く使用されるようになりました。

ベイズ法の弱点は、実際の状況では、カテゴリ母集団の確率分布と各サンプルタイプの確率分布関数(または密度関数)が不明なことが多いことです。それらを取得するには、サンプルが十分に大きくなければなりません。

また、ベイズ法では、テキストを表現するキーワードが互いに独立していることが求められますが、この条件を実際のテキストで満たすことは一般的に困難です。そのため、この方法では効果の面で理論上の最適値を達成できないことがよくあります。
ニューラルネットワーク:

ニューラル ネットワーク分類アルゴリズムの重要なポイントは、しきい値ロジック ユニットを構築することです。値ロジック ユニットは、重み付けされた係数のセットを入力し、それらを合計し、合計が特定のしきい値に達するか超過した場合に量を出力できるオブジェクトです。

入力値X1、X2、…、Xnとそれらの重み係数W1、W2、…、Wnがある場合、計算されたXi*Wiの合計は励起層a = (X1 * W1)+(X2 * W2)+…+(Xi * Wi)+…+ (Xn * Wn)を生成します。ここで、Xiは各レコードまたはその他のパラメータの発生頻度、Wiはリアルタイム機能評価モデルで取得された重み係数です。

ニューラル ネットワークは、経験的リスク最小化の原理に基づく学習アルゴリズムです。層とニューロンの数を決定するのが難しい、局所的最小値に陥る傾向がある、過剰学習現象など、いくつかの固有の欠陥があります。これらの固有の欠陥は、SVM アルゴリズムでうまく解決できます。

<<:  Java でよく使われる 7 つのソート アルゴリズムの概要

>>:  人工知能アルゴリズムを採用したGoogle検索は恐ろしい

ブログ    
ブログ    
ブログ    

推薦する

畳み込みニューラルネットワークに関する15の質問:CNNと生物視覚システムの研究と探究

CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...

機械学習が通信業界にもたらすメリット

通信分野における機械学習技術は、ネットワーク事業者がサービス品質を向上させ、利益を増やし、顧客離れを...

Sora では 1 分間のビデオを生成するのに 1 時間以上かかります。これによりユーザー エクスペリエンスにどのような変化がもたらされるのでしょうか?

人工知能に対する人々の熱意が高まり続けるにつれ、新しく発売された製品は世界中の人々から大きな注目を集...

Meituan はどのようにしてディープラーニングに基づくインテリジェントな画像レビューを実現するのでしょうか?

はじめに:AI(人工知能)技術は、Meituan AppからDianping App、フードデリバリ...

ソラ爆発的人気の裏側|世界のモデルとは何かを語ろう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

医療AIの将来に注目すべき3つのトレンド

COVID-19の流行、メンタルヘルスの危機、医療費の高騰、人口の高齢化により、業界のリーダーたちは...

人工知能の簡単な歴史 | (1) ディープラーニング、人工知能の新たな盛り上がり

人工知能はまだ少し遠く、Google の巨大なデータセンターの部屋や神秘的な MIT ロボット工学研...

パラメータは最大2兆個、GPT-4をはるかに超える!アマゾンの新型オリンパス大型モデルが公開、近日発表予定

大きなモデルの波から遠ざかっていたように見えるAmazonが、ついに最新の進捗状況を発表することにな...

AIガバナンスがリスクを軽減しながら利益を獲得する方法

[[389556]] AI ガバナンスは、データ プライバシー、アルゴリズムのバイアス、コンプライア...

...

...

ポストエピデミック時代のスマートエネルギー管理にエッジAIを活用する方法

COVID-19の影響により、今年の新学期は例年とは少し様子が異なります。多くの学校や企業がハイブリ...

人工知能が人々を失業させるのは悪いことではありません。それどころか、それは良い役割を果たします。

近年の科学技術の急速な発展に伴い、人工知能の概念が徐々に明確になってきています。特にOTT業界の重要...

AR/AIバーチャル試着室は社会的距離の確保対策への対応

COVID-19 は小売業界に大きな混乱をもたらしましたが、新しいテクノロジーはこれまで以上に重要な...