Python の基礎: FP 成長アルゴリズムの構築

Python の基礎: FP 成長アルゴリズムの構築

Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回走査するだけで済むため、頻繁に出現するアイテムセットを効率的に検出できます。検索エンジン会社にとっては、インターネット上で使用されている単語を調べて、どの単語が頻繁に一緒に出現するかを調べる必要があります。したがって、頻繁に出現するアイテムセットを効率的に発見できる方法が必要であり、FP 成長アルゴリズムはこのタスクを達成できます。

FP 成長アルゴリズムは、アプリオリ原理に基づいており、データ セットを FP (頻繁パターン) ツリーに格納することで頻繁なアイテム セットを検出します。

FP-growth アルゴリズムではデータベースを 2 回スキャンするだけで済みますが、Apriori アルゴリズムでは各潜在的頻出アイテム セットを見つけるときにデータ セットを 1 回スキャンするだけで済むため、FP-growth アルゴリズムの方が効率的です。

[[212909]]

頻繁なアイテムセットを発見する FP アルゴリズムのプロセスは次のとおりです。

(1)FPツリーを構築する。

(2)FP木からの頻出アイテムセットのマイニング

FP は頻繁なパターンの略で、類似の要素をリンクで接続します。接続された要素は、リンクされたリストと見なすことができます。

トランザクションデータテーブル内の各トランザクションに対応するデータ項目をサポートに従ってソートした後、各トランザクション内のデータ項目をNULLをルートノードとするツリーに降順で挿入し、各ノードにノードのサポートを記録します。

トランザクション データ サンプルがあると仮定すると、FP ツリーを構築する手順は次のようになります。

Apriori アルゴリズムの最小サポートしきい値と組み合わせて、ここでは最小サポートを 3 と定義します。上記の表のデータと組み合わせて、最小サポート要件を満たさないものは、最適な FP ツリーには表示されません。

これに基づいて FP ツリーが構築され、ヘッド ポインター テーブルを使用して特定の型の最初のインスタンスを指すことで、FP ツリー内のすべての要素にすばやくアクセスできるようになります。ヘッド ポインターを使用して構築された FP ツリーを図に示します。

描画された FP ツリーとヘッド ポインタ テーブルを組み合わせると、テーブル内のデータは次のようにフィルタリングされ、並べ替えられます。

データ項目をフィルタリングおよびソートした後、NULL から開始して、フィルタリングおよびソートされた頻繁な項目セットを継続的に追加して、FP ツリーを構築できます。このプロセスは次のように表現できます。

このようにして、FP ツリーに対応するデータ構造が構築されます。これで、FP ツリーを構築できます。FP ツリーの構築関数については、Python ソース コードを参照してください。

上記の例を実行する前に、実際のデータセットが必要であり、以前のデータを組み合わせてデータセットをカスタマイズする必要があります。このようにして FP ツリーが構築され、次のステップではそれを使用して頻繁なアイテム セットをマイニングします。

<<:  機械学習コードを単体テストするにはどうすればいいですか?

>>:  SSDの寿命は短いですか?寿命を延ばすバランスアルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

...

百度脳がAIの「先導役」を演じる 王海鋒:AI時代の社会の知能化を共同で推進

11月1日、Baidu Brainは2018年Baidu世界大会の初イベントとしてデビューしました。...

効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

先ほど、ウルトラマンがOpenAI初の動画生成モデル「ソラ」をリリースしました。 DALL·E 3 ...

再帰アルゴリズムにおけるリンクリスト操作

今日は、問題をさらに一歩進めて、再帰プロセスに対応する操作を追加する予定です。 (免責事項: 以下の...

世界で最も難しい「砂の彫刻」ゲームがAIによって解読された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Pangu-Agentの5つのイノベーション

大規模言語モデル (LLM) の開発と応用により、人工知能の分野で LLM ベースの自律エージェント...

AI: いつも HD ビデオが欲しいなら、ここにあります

Magnific の画像超解像度および強化ツールはまだテスト中ですが、その強力な画像アップスケーリン...

実験から実装まで: AI が金融サービスでその価値を証明している方法

金融機関にとって、新型コロナウイルス感染症のパンデミックからの回復は、人工知能(AI)と機械学習(M...

...

ディープラーニング Pytorch フレームワーク Tensor

[[433522]] 1 テンソル刈り込み操作テンソル内の要素を範囲でフィルタリングする勾配クリッ...

モノのインターネット – インド国防軍にとっての可能性

世界がインダストリー4.0へと向かうにつれ、モノのインターネットへの世界的な支出は2022年までに1...

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

「10人のチームを持ち、年間売上高が1億ドルを超えるスタートアップ」を輩出する道として、文芸グラフィ...

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

本論文では、単眼輝度画像から顔の深度マップを推定する敵対的アーキテクチャを提案する。 画像対画像のア...

人工知能に最適なプログラミング言語

[51CTO.com クイック翻訳]人工知能は 20 世紀半ばから存在しています。それにもかかわらず...