分類アルゴリズムの概要

分類アルゴリズムの概要

[[151327]]

決定木分類アルゴリズム

決定木誘導は古典的な分類アルゴリズムです。これは、トップダウン、再帰、ブレークダウン方式で決定木を構築します。情報ゲイン メトリックは、ツリーの各ノードでテスト属性を選択するために使用されます。結果として得られた決定木からルールを抽出できます。

KNN法(K近傍法):

KNN 法、または K 最近傍法は、1968 年に Cover と Hart によって初めて提案され、理論的には比較的成熟した方法です。

この方法の考え方は非常にシンプルで直感的です。サンプルの最も類似したk個のサンプル(つまり、特徴空間内の最も近いサンプル)のほとんどが特定のカテゴリに属する​​場合、サンプルもこのカテゴリに属します。

この方法では、分類決定における 1 つまたは複数の最も近いサンプルのカテゴリに基づいて、分類するサンプルのカテゴリのみを決定します。

KNN 法も原理的には極限定理に依存していますが、カテゴリ決定を行う際にはごく少数の隣接サンプルにのみ関連します。

したがって、この方法により、サンプルの不均衡の問題をより適切に回避できます。

さらに、KNN 法は、カテゴリを決定するためにクラス領域を区別する方法ではなく、限られた隣接サンプルに主に依存するため、KNN 法は、より多くの交差または重複したクラス領域で分類されるサンプル セットに他の方法よりも適しています。

この方法の欠点は、分類するテキストごとに、K 個の最近傍を取得するためにすべての既知のサンプルとの距離を計算する必要があるため、大量の計算が必要になることです。

現在一般的に使用されている解決策は、既知のサンプルポイントを事前にクリップし、分類にほとんど影響のないサンプルを削除することです。

また、リバース KNN 方式もあり、これにより KNN アルゴリズムの計算の複雑さが軽減され、分類の効率が向上します。

このアルゴリズムは、サンプル サイズが大きいドメインの自動分類に適していますが、サンプル サイズが小さいドメインにこのアルゴリズムを使用すると、誤分類が発生する可能性が高くなります。

SVM法:

SVM 法、すなわちサポート ベクター マシン法は、1995 年に Vapnik らによって提案され、比較的優れたパフォーマンス指標を持っています。

この方法は、統計学習理論に基づいた機械学習手法です。

学習アルゴリズムにより、SVM は分類に優れた識別能力を持つサポート ベクトルを自動的に見つけることができます。このようにして構築された分類器はクラス間の間隔を最適化できるため、適応性が向上し、分類精度が高くなります。

この方法では、各ドメインの境界サンプルのカテゴリに基づいて最適な分類結果を決定するだけです。

サポートベクターマシンアルゴリズムの目的は、トレーニングセット内のデータを分離でき、超平面に垂直な方向に沿ってクラスドメイン境界からの距離が最小となる超平面 H(d) を見つけることです。そのため、SVM メソッドは最大マージンアルゴリズムとも呼ばれます。

分類するサンプル セット内のサンプルのほとんどはサポート ベクターではありません。これらのサンプルを削除または削減しても、分類結果には影響しません。サンプルが小さい場合、自動分類では SVM 方式の方が分類結果が良くなります。

VSM方式:

VSM 法、すなわちベクトル空間モデル法は、1960 年代後半に Salton らによって提案されました。これは情報検索のための最も初期かつ最も有名な数学モデルです。

基本的な考え方は、ドキュメントを重み付けされた特徴ベクトルとして表現することです: D=D(T1, W1; T2, W2; ...; Tn, Wn)、次にテキストの類似度を計算して分類するサンプルのカテゴリを決定します。

テキストを空間ベクトルモデルとして表現すると、テキストの類似性は特徴ベクトル間の内積で表現できます。

実際のアプリケーションでは、VSM メソッドは一般に、コーパス内のトレーニング サンプルと分類システムに基づいてカテゴリ ベクトル空間を確立します。

分類するサンプルを分類する必要がある場合、分類するサンプルと各カテゴリ ベクトル間の類似度、つまり内積を計算し、最も類似度の高いカテゴリを分類するサンプルに対応するカテゴリとして選択するだけで済みます。

VSM 法では、事前にカテゴリ空間ベクトルを計算する必要があり、空間ベクトルの設定はカテゴリベクトルに含まれる特徴項目に大きく依存します。

研究によると、カテゴリに含まれる非ゼロの特徴項目の数が多いほど、そのカテゴリの各特徴項目の表現力は弱くなります。

したがって、他の分類方法と比較して、VSM 法は専門文献の分類に適しています。

ベイズ法:

ベイズ法は、既知の事前確率とクラス条件付き確率を条件とするパターン分類法です。分類対象となるサンプルの分類結果は、各クラスドメイン内のサンプルの総数に依存します。

トレーニング サンプル セットが M 個のカテゴリに分割され、C={c1,…,ci,…cM} と表されるとします。各カテゴリの事前確率は P(ci)、i=1,2,…,M です。サンプル セットが非常に大きい場合、P(ci) = クラス ci のサンプル数 / サンプルの総数と考えることができます。

分類するサンプル X について、クラス cj に属するクラス条件付き確率は P(X|ci) です。ベイズの定理によれば、クラス cj の事後確率 P(ci|X) は次のように得られます。

P(ci|x)=P(x|ci)·P(ci)/P(x)(1)

P(ci|X)=Ma**(cj|X)、i=1,2,…,M、j=1,2,…,Mの場合、x∈ci(2)

式(2)は事後確率決定基準である。式(1)を式(2)に代入すると、次のようになる。

P(x|ci)P(ci)=Maxj[P(x|cj)P(cj)], i=1,2,…,M, j=1,2,…,Mならばx∈ci

これは一般的に使用されるベイズ分類の決定基準です。長期にわたる研究の結果、ベイズ分類法は理論的に完全に実証され、非常に広く使用されるようになりました。

ベイズ法の弱点は、実際の状況では、カテゴリ母集団の確率分布と各サンプルタイプの確率分布関数(または密度関数)が不明なことが多いことです。それらを取得するには、サンプルが十分に大きくなければなりません。

また、ベイズ法では、テキストを表現するキーワードが互いに独立していることが求められますが、この条件を実際のテキストで満たすことは一般的に困難です。そのため、この方法では効果の面で理論上の最適値を達成できないことがよくあります。

ニューラルネットワーク:

ニューラル ネットワーク分類アルゴリズムの重要なポイントは、しきい値ロジック ユニットを構築することです。値ロジック ユニットは、重み付けされた係数のセットを入力し、それらを合計し、合計が特定のしきい値に達するか超過した場合に量を出力できるオブジェクトです。

入力値X1、X2、…、Xnとそれらの重み係数W1、W2、…、Wnがある場合、計算されたXi*Wiの合計は励起層a = (X1 * W1)+(X2 * W2)+…+(Xi * Wi)+…+ (Xn * Wn)を生成します。ここで、Xiは各レコードまたはその他のパラメータの発生頻度、Wiはリアルタイム機能評価モデルで取得された重み係数です。

ニューラル ネットワークは、経験的リスク最小化の原理に基づく学習アルゴリズムです。層とニューロンの数を決定するのが難しい、局所的最小値に陥る傾向がある、過剰学習現象など、いくつかの固有の欠陥があります。これらの固有の欠陥は、SVM アルゴリズムでうまく解決できます。

<<:  教師なし学習アルゴリズム: 異常検出

>>:  SDNアプリケーションルーティングアルゴリズムを実装するためのツールであるNetworkx

ブログ    
ブログ    
ブログ    

推薦する

AI + コンサルティング: データ サイエンティストはコンサルタントになるか?

AIはコンサルティング業界に新たな春をもたらすでしょうか?大手コンサルティング会社の AI 開発部...

報告書では、人工知能の新世代について再び言及しており、3つのキーワードが完全に解釈されている。

最近、「両会」の政府活動報告では、人工知能が再び言及された。「新世代人工知能の研究開発と応用を強化し...

不動産の持続可能な開発を推進する4つのテクノロジートレンド

不動産業界は、エネルギー需要の 22% を占めていることから、変化する環境の中で持続可能性を確保する...

救急室のAIにはもう少し人間的なケアが必要

[[228274]]交換室の電話が鳴り、看護師が手際よく緊急電話に出た。その後すぐに病院は救急車を派...

クラウドサービスが舞台を整え、AIが役割を果たす、これはI/Oに劣らないGoogleテクノロジーカンファレンスです

Google をよく知っていると思っている人でも、Cloud Next カンファレンスについては聞い...

ChatGPT を使用して HR を強化するにはどうすればよいでしょうか?

------01------人事担当者としては、日々さまざまな採用情報を発信する必要があります。以...

掃除ロボットはほこりを吸い取るだけでなく、プライバシーも「吸い取る」ことができます

家庭でますます一般的になりつつある掃除ロボットは、ほこりを吸い取るだけでなく、個人のプライバシーも「...

ボストンダイナミクスの犬は48万8000元。美しい女性がビーチで犬を散歩させている。ネットユーザーから「金持ち」と呼ばれる

太陽の光、美しさ、ビーチ、他に何が思い浮かびますか?写真にボストンのロボット犬がいると言ったら、想像...

AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

ちょうど今日、Meta 社は商用 AI に注力するため、AI を使用して約 6 億個のタンパク質の折...

...

これらは、データ構造とアルゴリズムにおける動的プログラミングのコツです。

[[442276]]動的計画法理論の基礎動的プログラミングとは何か動的プログラミング (英語: D...

2020 年に注目すべき機械学習とデータサイエンスのウェブサイト トップ 20

今日最も進歩的で、最先端で、刺激的なもの…データ サイエンスと機械学習は、今日非常に魅力的で、非常に...

人工知能研究における大きな進歩は人類に大きな変化をもたらすだろう

アメリカのテクノロジーの天才イーロン・マスク氏は、彼の研究チームが脳と機械の相互接続を可能にする脳・...

AI言語モデルのオープンソース化による10のプラスとマイナスの影響

GPT や PaLM などの独自のソフトウェアが市場を支配していますが、多くの開発者は依然としてオー...