導入 ナイーブ ベイズ アルゴリズム (ナイーブ ベイズ アルゴリズムとも呼ばれます)。ナイーブ: 条件付き独立性を備えています。ベイズ: ベイズの定理に基づいています。これは、実装が簡単で、反復がなく、堅実な数学理論 (ベイズの定理など) によってサポートされている、教師あり学習の生成モデルです。サンプル数が多いほどパフォーマンスは向上しますが、入力ベクトルの特徴条件が関連しているシナリオには適していません。 基本的な考え方 (1)患者分類の例 次の表に示すように、ある病院では午前中に 6 人の外来患者を受け入れました。 今は7人目の患者、くしゃみをする建設作業員がいる。彼が風邪をひく確率はどれくらいですか? ベイズの定理によれば: したがって、くしゃみをした建設作業員が風邪をひいている確率は 66% です。同様に、患者がアレルギーや脳震盪を起こす確率も計算できます。これらの確率を比較することで、彼がどの病気にかかっている可能性が高いかを知ることができます。 これはベイズ分類器の基本的な方法です。統計データに基づいて、特定の特徴に従って各カテゴリの確率を計算し、分類を行います。 (2)ナイーブベイズ分類器の式 個体が n 個の特徴、つまり F1、F2、…、Fn を持っているとします。カテゴリは C1、C2、...、Cm の m 個あります。ベイズ分類器は、最高の確率、つまり次の式の最高値を計算するものです。 P(F1F2…Fn)はすべてのカテゴリで同じであり省略できるので、問題は *** 価値。 ナイーブベイズ分類器はさらに一歩進んで、すべての特徴が互いに独立していると仮定します。 上記の式の等号の右側の各項は統計データから取得でき、そこから各カテゴリに対応する確率を計算して、最も確率の高いカテゴリを見つけることができます。 「すべての特徴は互いに独立している」という仮定は実際には当てはまらない可能性が高いですが、計算を大幅に簡素化することができ、分類結果の精度にほとんど影響を与えないことが研究で示されています。 (3)ラプラス平滑化 つまり、ベイズ推定のパラメータが 1 の場合、あるコンポーネントが全サンプル(観測サンプルライブラリ/トレーニングセット)の特定のカテゴリに一度も出現したことがなければ、インスタンス全体の計算結果は 0 になります。この問題を解決するために、ラプラス平滑化/add-1平滑化が使用されます。 考え方は非常にシンプルで、事前確率の分子(分割数)に 1 を加算し、分母にカテゴリの数を加算します。また、条件付き確率の分子に 1 を加算し、分母に対応する特徴の可能な値の数を加算します。これにより、ゼロ確率の問題が解決されるだけでなく、確率の合計が 1 のままになることも保証されます。 たとえば、テキスト分類に C1、C2、C3 の 3 つのクラスがあるとします。指定されたトレーニング サンプルでは、特定の単語 F1 は各クラスで観測数が 0、990、10 であり、つまり確率は P(F1/C1)=0、P(F1/C2)=0.99、P(F1/C3)=0.01 です。ラプラス平滑化を使用したこれら 3 つの量の計算方法は次のとおりです。
実際の応用シナリオ
ナイーブベイズモデル 一般的に使用される Naive Bayes モデルは次の 3 つです。
コードの実装 多項式モデルに基づくナイーブベイズアルゴリズム(github から入手) テストデータセットはMNISTデータセットです。アドレスtrain.csvを取得します。 運用結果 |
>>: 【受賞討論会】「スマート運用・保守」がトレンドに。運用・保守エンジニアは人工知能に置き換えられるのか?
2020年、国内の新たな消費が活況を呈する一方で、海外市場も急速な成長機会の新たな波を迎えています...
[上海、2018年10月10日] 本日開催されたHUAWEI CONNECT 2018において、ファ...
「不確実性」の概念は、人工知能の安全性、リスク管理、ポートフォリオの最適化、科学的測定、保険などにつ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
6月13日のニュース、人工知能の急速な発展に伴い、シリコンバレーは、人間の行動は予測可能であり、スキ...
「人工知能によって人間が失業したわけではない。人工知能に携わる人々が先に失業したのだ」これはもとも...
たった今、テスラはまた別の技術専門家を失いました!テスラAIのシニアディレクターであり、自動運転ビジ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
春節休暇期間中、国内映画市場は活況を呈した。猫眼専門版のデータによると、丑年春節期間(2月11日~2...
執筆者 | Yan Zheng制作:51CTO テクノロジースタック(WeChat ID:blog)...
PLOS ONE に掲載された新しい研究では、機械学習を使用して 4,438 人の乳児の「気質」デー...
人工知能技術の発展に伴い、携帯電話の翻訳ソフトを使って自分の言語をリアルタイムで翻訳したり、画像認識...