機械分野におけるLDAトピックモデルを説明する記事

機械分野におけるLDAトピックモデルを説明する記事

[[211903]]

序文

このブログ投稿では、第一レベルの数学的導出の観点から LDA トピック モデルを詳細に説明します。LDA のみを理解したい読者は、最初のセクションの紹介だけを読んでください。 PLSA は LDA と非常に似ているため、トピックモデリングにおいても非常に重要なモデルです。この記事では、このモデルについても重点的に説明します。読みにくい場合は、フィボナッチ数列を定義し、知識ポイントが収束するまで f(n) = f(n-1) + f(n-2) の日に再度読み進めることができます。読者が記事に誤りを見つけたり、改善の余地があると思われる場合は、お気軽に共有してください。

1. はじめに

機械学習の分野では、LDA は、線形判別分析と潜在的ディリクレ配分という 2 つのよく使用されるモデルの略称です。この記事の LDA は、潜在的ディリクレ分布のみを指します。LDA はトピック モデルで非常に重要な役割を果たし、テキスト分類によく使用されます。

LDA は、文書のトピック分布を推測するために、2003 年に Blei、David M.、Ng、Andrew Y.、Jordan によって提案されました。文書セット内の各文書のトピックを確率分布の形式で提示できるため、いくつかの文書を分析してトピック分布を抽出した後、トピック分布に基づいてトピッククラスタリングまたはテキスト分類を実行できます。

2. 事前の知識

LDA モデルには多くの数学が含まれており、これがおそらく LDA がわかりにくい主な理由です。このセクションでは、主に LDA に関係する数学的な知識を紹介します。数学の基礎がしっかりしている学生はこのセクションをスキップできます。

LDA に必要な事前知識には、二項分布、ガンマ関数、ベータ分布、多項分布、ディリクレ分布、マルコフ連鎖、MCMC、ギブス サンプリング、EM アルゴリズムなどが含まれます。スペースの制限により、この記事では、いくつかの概念を重点的に紹介するだけにします。すべての概念を詳細に紹介したり、各概念の数式を導出したりすることはしません。すべての概念を詳細に紹介すると、おそらく 100 ページの本が必要になるでしょう。 LDA を熟知し、自由に使用できるようになったら、おめでとうございます。機械学習の強固な数学的基礎を習得したことになります。基礎となる数式導出プロセスについて詳しく知りたい場合は、「The Complete Book of Mathematics」などの資料を参照してください。

3.2 PLSAモデル

主語の概念は Unigram モデルでは考慮されません。私たちが記事を書くとき、それはすべて特定のトピックに関するものであり、ランダムな単語ではありません。たとえば、金融ジャーナリストがレポートを書く場合、記事の大部分は金融トピックに関するものになります。もちろん、他のトピックに関連する単語も少数あります。したがって、PLSA は、ドキュメントの生成プロセスは次のようになると考えています。

  • 1. サイコロには 2 種類あります。ドキュメント トピック サイコロでは、各ドキュメント トピック サイコロには K 面があり、各面にはトピック番号があります。トピック ワード サイコロでは、各トピック ワード サイコロには V 面があり、各面は単語に対応しています。
  • 2. トピックワードサイコロが K 個あり、それぞれに 1 から K までの数字が付いています。
  • 3. 各ドキュメントを生成する前に、この記事に固有のドキュメントトピック ダイスを作成し、次のプロセスを繰り返してドキュメント内の単語を生成します。
  • 3.1 ドキュメントトピックサイコロを振ってトピック番号 z を取得します。
  • 3.2 K 個のトピックワードサイコロの中から z の番号の付いたサイコロを選択し、サイコロを振って単語を取得します。

上図には3つのトピックがあります。PLSAでは、トピックワード「教育」を確率0.5で抽出するなど、一定の確率でトピックワードを抽出し、抽出したトピックワードに基づいて対応する単語分布を求め、単語分布に基づいて語彙を抽出します。このことから、PLSA ではトピック分布と単語分布の両方が一意に決定されることがわかります。しかし、LDA では、トピック分布と単語分布は不確実です。LDA の著者はベイズの考えを採用し、分布に従うべきだと考えています。トピック分布と単語分布はどちらも多項分布です。多項分布とディリクレ分布は共役構造であるため、LDA では、トピック分布と単語分布は共役事前分布としてディリクレ分布を使用します。そのため、LDA は PLSA のベイズバージョンであるという説が広く流布しています。次の 2 つの図でその違いがよくわかります。

PLSA と LDA の両方の論文では、モデルを説明するために次の図が使用されています。また、PLSA と LDA の違いを比較するのにも役立ちます。

3.3.6 LDA推論

LDA モデルでは、新しいドキュメント doc に対して、トレーニング コーパスから取得されたモデルによって提供されるギブス サンプリング式の部分が安定していて変更されていないと仮定するだけで済みます。したがって、サンプリング プロセス中は、ドキュメントのトピック分布を推定するだけで済みます。具体的なアルゴリズムは次のとおりです。

  • 1. 現在の文書内の各単語に対して、トピック番号 z をランダムに初期化します。
  • 2. ギブスサンプリング式を使用して、各単語のトピックを再サンプリングします。
  • 3. ギブスサンプリングが収束するまで上記のプロセスを繰り返します。
  • 4. 文書内のトピック分布を数えます。

4つのヒント

LDA を理解している面接官は通常、求職者に LDA のトピックの数をどのように決定するかを尋ねます。

LDA では、トピックの数に対して固定された最適解は存在しません。モデルをトレーニングする際には、トピックの数を事前に設定する必要があります。トレーナーは、トレーニング結果に基づいてパラメータを手動で調整し、トピックの数を最適化して、テキスト分類の結果を最適化する必要があります。

5 追記

LDA には幅広い用途があります。LDA を深く理解することは、モデルの調整、新しいモデルの提案、AI スキルの向上に大いに役立ちます。 LDA が何に使用できるかを知っているだけでは、初心者を騙すことはできません。

Baidu は LDA モデルをオープンソース化しました。興味のある方は、https://github.com/baidu/Familia/wiki をご覧ください。

参考文献

[1]: Blei, DM, Ng, AY, & Jordan, MI (2003). 潜在的ディリクレ配分。機械学習研究ジャーナル、3(1月)、993-1022。

[2]: Hofmann, T. (1999). 確率的潜在意味索引付け。情報検索の研究開発に関する第22回国際ACM SIGIR会議議事録(pp. 50-57)。ACM。

[3]: Li, F., Huang, M., & Zhu, X. (2010). グローバルトピックとローカル依存関係による感情分析。AAAI (第10巻、pp. 1371-1376)。

[4]: Medhat, W., Hassan, A., & Korashy, H. (2014). 感情分析アルゴリズムとアプリケーション: 調査. Ain Shams Engineering Journal, 5(4), 1093-1113.

[5]: Rick, Jin. (2014). http://www.flickering.cn/数学之美/2014/06/【lda数学八卦】神奇的グラム/より取得。

[6]: LDAトピックモデルの簡単な理解。(2014) http://blog.csdn.net/v_july_v/article/details/41209515より取得。

[7]: 周志華(2017)『機械学習』北京、中国:清華大学出版局。

[8]: Goodfellow, I., Bengio, Y., Courville, A. (2017). ディープラーニング. マサチューセッツ州ケンブリッジ: MIT プレス.

[9]: Hang, Li. (2016). 統計的学習法. 北京、中国: 清華大学出版局.

著者: Xia Qi、Daguan Data の NLP チーム、WeChat ID: Datagrand

[この記事は51CTOコラムニスト「Daguan Data」によるオリジナル記事です。転載については51CTOコラムまでご連絡ください]

この著者の他の記事を読むにはここをクリックしてください

<<:  2018 年に人工知能を変える 5 つのビッグデータ トレンド

>>:  ニューラルネットワークアルゴリズムの利点と応用

ブログ    
ブログ    

推薦する

ザッカーバーグはオープンソース AGI に全力を注ぐ: Llama 3 をトレーニング、35 万台の H100 を年末までに提供開始

ザッカーバーグ氏は新たな目標「すべてをオープンソースの AGI に」を発表しました。そう、ザッカーバ...

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...

AIがモノのインターネットをどう変えるのか

AI は、ネットワークとデバイスが過去の決定から学習し、将来のアクティビティを予測し、パフォーマン...

AIがIT業界とAV業界にもたらす変化

[51CTO.com クイック翻訳]人工知能が情報技術 (IT) 業界とオーディオビジュアル (AV...

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを...

人工知能に対する2つのアプローチの戦い

[[248047]] (AIの2つのルート)ホフスタッターは1995年に予測した。 (人工知能におい...

ロボット犬が3トンの飛行機を10メートル引っ張った

今日のロボット犬は、人間に簡単につまずかされるような時代をとうに過ぎています。新しく公開されたビデオ...

AIが銀行業界にもたらす変化とそれがもたらす課題

銀行は長年にわたり、フロントオフィスとバックオフィスの両方で企業を支援するテクノロジーの活用において...

海外の専門家による人工知能の発展見通しに関する衝撃的な4つの予測

人工知能技術が成熟するにつれ、この技術のより広範な社会的、倫理的影響に十分な注意が払われていないので...

マルチモーダル生体認証の利点を分析した記事、急いでコード化しましょう!

今日の情報化時代において、個人の身元を正確に識別し、情報セキュリティを保護する方法は、あらゆる分野の...

Google Gemini: CMU の総合評価では、Gemini Pro は GPT 3.5 Turbo より劣っていることが判明

少し前に、Google はOpenAI の GPT モデルの競合製品であるGemini をリリースし...

AIユニコーンがIPOに群がり、資本市場を刺激。シナリオアプリケーションは複数の場所で爆発的に増加する可能性がある

美景記者:李紹廷 美景編集者:温多2020年を振り返ると、新型コロナウイルス感染症の突然の流行は間違...

Forbes: 14 人の技術専門家が、将来 AI によって混乱が生じる業界を予測しています。

AI の恩恵を受ける業界はどれでしょうか?人工知能と機械学習はすでにさまざまな業界に導入されており...

GPT-4はバードに追い抜かれても納得せず、最新モデルが市場に投入された

「ビッグモデル予選コンペティション」チャットボット アリーナの公式リストが更新されました: Goog...

SMIC、AIoT時代の最も価値ある製造業である14nmプロセスチップを量産

SMICは最近、研究開発への投資を増やすことで14nmプロセスチップを量産し、2021年に正式に出荷...