Python の基礎: FP 成長アルゴリズムの構築

Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回走査するだけで済むため、頻繁に出現するアイテムセットを効率的に検出できます。検索エンジン会社にとっては、インターネット上で使用されている単語を調べて、どの単語が頻繁に一緒に出現するかを調べる必要があります。したがって、頻繁に出現するアイテムセットを効率的に発見できる方法が必要であり、FP 成長アルゴリズムはこのタスクを達成できます。

FP 成長アルゴリズムは、アプリオリ原理に基づいており、データセットを FP (頻繁パターン) ツリーに格納することで頻繁なアイテムセットを検出します。

FP-growth アルゴリズムではデータベースを 2 回スキャンするだけで済みますが、Apriori アルゴリズムでは各潜在的頻出アイテムセットを見つけるときにデータセットを 1 回スキャンするだけで済むため、FP-growth アルゴリズムの方が効率的です。

[[212909]]

頻繁なアイテムセットを発見する FP アルゴリズムのプロセスは次のとおりです。

（１）FPツリーを構築する。

（２）FP木からの頻出アイテムセットのマイニング

FP は頻繁なパターンの略で、類似の要素をリンクで接続します。接続された要素は、リンクされたリストと見なすことができます。

トランザクションデータテーブル内の各トランザクションに対応するデータ項目をサポートに従ってソートした後、各トランザクション内のデータ項目をNULLをルートノードとするツリーに降順で挿入し、各ノードにノードのサポートを記録します。

トランザクションデータサンプルがあると仮定すると、FP ツリーを構築する手順は次のようになります。

Apriori アルゴリズムの最小サポートしきい値と組み合わせて、ここでは最小サポートを 3 と定義します。上記の表のデータと組み合わせて、最小サポート要件を満たさないものは、最適な FP ツリーには表示されません。

これに基づいて FP ツリーが構築され、ヘッドポインターテーブルを使用して特定の型の最初のインスタンスを指すことで、FP ツリー内のすべての要素にすばやくアクセスできるようになります。ヘッドポインターを使用して構築された FP ツリーを図に示します。

描画された FP ツリーとヘッドポインタテーブルを組み合わせると、テーブル内のデータは次のようにフィルタリングされ、並べ替えられます。

データ項目をフィルタリングおよびソートした後、NULL から開始して、フィルタリングおよびソートされた頻繁な項目セットを継続的に追加して、FP ツリーを構築できます。このプロセスは次のように表現できます。

このようにして、FP ツリーに対応するデータ構造が構築されます。これで、FP ツリーを構築できます。FP ツリーの構築関数については、Python ソースコードを参照してください。

上記の例を実行する前に、実際のデータセットが必要であり、以前のデータを組み合わせてデータセットをカスタマイズする必要があります。このようにして FP ツリーが構築され、次のステップではそれを使用して頻繁なアイテムセットをマイニングします。

<<: 機械学習コードを単体テストするにはどうすればいいですか?

>>: SSDの寿命は短いですか？寿命を延ばすバランスアルゴリズム

ブログ

これを読めば、大きな整数の乗算と分割統治アルゴリズムを学ぶことができます。

ブログ

方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

ブログ

未来を自分の目で目撃しよう: 人工知能を使って加齢黄斑変性を治療する

ブログ

Python の基礎: FP 成長アルゴリズムの構築

これを読めば、大きな整数の乗算と分割統治アルゴリズムを学ぶことができます。

方向を理解し、座標を伝える、Shikraはマルチモーダルな大規模モデル参照ダイアログの新しい次元を開きます

未来を自分の目で目撃しよう: 人工知能を使って加齢黄斑変性を治療する

推薦する

パフォーマンスを犠牲にすることなく、メモリ使用量を90%削減。FacebookがQuant-Noiseモデル圧縮方式を提案

Google の家庭用ロボットがスタンフォード大学のエビ揚げロボットに挑む!猫と遊ぶためにお茶と水を出し、3回続けてフリックして猫と遊ぶ

ByteDance は給与の大幅調整を行いましたが、これは隠された 20% の給与増額です。ネットユーザー：業界の清流！

AI | 人工知能、プログラマーの終焉？

李開復「2021年を予測」：4つの主要分野が前例のない発展の機会をもたらす

CTR は成功と失敗の鍵です。なぜクリックスルー率はアルゴリズムエンジニアにとって悪夢となっているのでしょうか?

MLP および Re-Parameter シリーズに関する人気の論文を含む、注目メカニズムの 17 個の PyTorch 実装

Windows コンピューターでディープラーニングモデルをトレーニングしますか?非常に詳細な設定チュートリアルはこちら

2021年4月の自動運転分野における重要な進展の概要

[私はジャービスです]: FaceIDの背後にあるディープラーニング視覚アルゴリズムについて語る

2020年に人工知能はどのように発展するでしょうか?機械学習のトップ専門家が予測するトレンド

自動運転のための2Dおよび3D視覚認識アルゴリズムについて話す

倫理的な AI の今後はどうなるのでしょうか?

ロボットと自動化技術は、パンデミックの新たな常態の中でどのように新しい雇用を生み出すのでしょうか?