Python の基礎: FP 成長アルゴリズムの構築

Python の基礎: FP 成長アルゴリズムの構築

Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回走査するだけで済むため、頻繁に出現するアイテムセットを効率的に検出できます。検索エンジン会社にとっては、インターネット上で使用されている単語を調べて、どの単語が頻繁に一緒に出現するかを調べる必要があります。したがって、頻繁に出現するアイテムセットを効率的に発見できる方法が必要であり、FP 成長アルゴリズムはこのタスクを達成できます。

FP 成長アルゴリズムは、アプリオリ原理に基づいており、データ セットを FP (頻繁パターン) ツリーに格納することで頻繁なアイテム セットを検出します。

FP-growth アルゴリズムではデータベースを 2 回スキャンするだけで済みますが、Apriori アルゴリズムでは各潜在的頻出アイテム セットを見つけるときにデータ セットを 1 回スキャンするだけで済むため、FP-growth アルゴリズムの方が効率的です。

[[212909]]

頻繁なアイテムセットを発見する FP アルゴリズムのプロセスは次のとおりです。

(1)FPツリーを構築する。

(2)FP木からの頻出アイテムセットのマイニング

FP は頻繁なパターンの略で、類似の要素をリンクで接続します。接続された要素は、リンクされたリストと見なすことができます。

トランザクションデータテーブル内の各トランザクションに対応するデータ項目をサポートに従ってソートした後、各トランザクション内のデータ項目をNULLをルートノードとするツリーに降順で挿入し、各ノードにノードのサポートを記録します。

トランザクション データ サンプルがあると仮定すると、FP ツリーを構築する手順は次のようになります。

Apriori アルゴリズムの最小サポートしきい値と組み合わせて、ここでは最小サポートを 3 と定義します。上記の表のデータと組み合わせて、最小サポート要件を満たさないものは、最適な FP ツリーには表示されません。

これに基づいて FP ツリーが構築され、ヘッド ポインター テーブルを使用して特定の型の最初のインスタンスを指すことで、FP ツリー内のすべての要素にすばやくアクセスできるようになります。ヘッド ポインターを使用して構築された FP ツリーを図に示します。

描画された FP ツリーとヘッド ポインタ テーブルを組み合わせると、テーブル内のデータは次のようにフィルタリングされ、並べ替えられます。

データ項目をフィルタリングおよびソートした後、NULL から開始して、フィルタリングおよびソートされた頻繁な項目セットを継続的に追加して、FP ツリーを構築できます。このプロセスは次のように表現できます。

このようにして、FP ツリーに対応するデータ構造が構築されます。これで、FP ツリーを構築できます。FP ツリーの構築関数については、Python ソース コードを参照してください。

上記の例を実行する前に、実際のデータセットが必要であり、以前のデータを組み合わせてデータセットをカスタマイズする必要があります。このようにして FP ツリーが構築され、次のステップではそれを使用して頻繁なアイテム セットをマイニングします。

<<:  機械学習コードを単体テストするにはどうすればいいですか?

>>:  SSDの寿命は短いですか?寿命を延ばすバランスアルゴリズム

ブログ    
ブログ    
ブログ    

推薦する

人工知能は二酸化炭素排出量のせいで制限されるのでしょうか?

AI にカーボン フットプリントがあることは驚くことではありません。カーボン フットプリントとは、...

製造業における機械学習と人工知能

より高品質の製品をより多く、より低コストで生産することは、製造業の永遠の目標です。スマート製造革命に...

トップ 10 の AI フレームワークとリポジトリのレビュー、その長所と短所の分析

[51CTO.com クイック翻訳] 人工知能は決して新しいものではありませんが、科学の分野では古く...

...

現在世界で最も重要な古典的アルゴリズムトップ10

最近、誰かが StackExchange で、ネットユーザーに現在世界で最も古典的なアルゴリズムのト...

ControlNet、「Split Everything」などの人気論文が受賞、ICCV 2023論文賞が発表

今週、フランスのパリで国際コンピュータビジョン会議 (ICCV) が開幕しました。 ICCVはコンピ...

PaddlePaddle と TensorFlow の比較分析

この記事では主に、フレームワークの概要、システム アーキテクチャ、プログラミング モデル、分散アーキ...

Google、少量のサンプル学習と会話で記事を書き換えられるAIライティングアシスタントをリリース

[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...

入社1年目のアルゴリズムエンジニアから新人への手紙

[[271455]]ビッグデータダイジェスト制作出典: towarddatascienceコンピレー...

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...

Baidu のディープラーニング プラットフォーム PaddlePaddle フレームワークの分析

PaddlePaddleは、Baiduが2016年8月末に一般公開したディープラーニングプラットフォ...

2021 年のファッションラグジュアリーの美的パラダイムとは何でしょうか?答え: テクノロジー

最近はテクノロジーがあらゆるところに存在し、それに伴って変化も起こっています。つまり、ビジネス戦略に...

Lightning AI Studioを無料で使う方法

翻訳者 |ブガッティレビュー | Chonglouこの記事では、無料で使いやすい新しいクラウドIDE...

TensorFlow を使用してシンプルなロジスティック回帰モデルをゼロから構築する

TensorFlow は Python ベースの機械学習フレームワークです。 Coursera でロ...

フィンテック企業はリスク管理に AI をどのように活用しているのでしょうか?

[51CTO.com からのオリジナル記事] 金融テクノロジーのブームは 21 世紀以降急増してい...