データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

データマイニングの基本概念と最も一般的に使用されるアルゴリズムについての簡単な説明

現在、国民経済と生活のあらゆる分野でビッグデータの理論と応用が盛んに行われています。ビッグデータの基本的な概念や特徴については、すでに多くの人が理解しています。しかし、ビッグデータを取得、保存、検索、共有するだけでは十分ではありません。ビッグデータの中にある未知の価値ある情報や知識を、どのように見つけることができるのでしょうか。

知識発見 (KDD) は、ビッグ データから有効で、斬新で、潜在的に有用で、最終的には理解可能なパターンを識別するプロセスです。


知識発見のフローチャート

データマイニングは、ビッグデータにおける知識発見(KDD)に欠かせない部分であり、ビッグデータの理論と応用において非常に重要な部分です。データ マイニングとは、大量の不完全でノイズが多く、あいまいでランダムなデータから、暗黙的で未知だが潜在的に有用な情報や知識を抽出するプロセスです。ほとんどの人は、ケーススタディを通じてデータマイニングについて学びました。これは、ウォルマートがデータ分析を通じて、男性顧客がベビー用おむつを購入する際に自分へのご褒美としてビールを数本買うことが多いことを発見したため、ビールとおむつを組み合わせたプロモーションを開始しようとしたためです。予想外に、この動きにより、実際におむつとビールの両方の売上が大幅に増加しました。この話はおそらく嘘ですが、多くの人にデータマイニングに興味を持ってもらうきっかけとなりました。


データマイニングの基本フレームワーク

データマイニングで最も一般的に使用されるアルゴリズムは次のとおりです。

(1)予測モデリング:既存のデータとモデルを使用して未知の変数を予測する。

  • 分類は離散的なターゲット変数を予測するために使用される
  • 連続的な目標変数を予測するための回帰

(2)クラスター分析:同じクラスターに属する観測値が、異なるクラスターに属する観測値と比較して可能な限り互いに類似するように、密接に関連する観測値のグループを見つける。

(3)関連分析(関係モデルとも呼ばれる):あるものと他のものの間の相互依存性と相関関係を反映します。データ内の強く相関した特徴を表すパターンを発見するために使用されます。

(4)異常検出:他のデータとは特性が著しく異なる観測値を識別する。

データ マイニングは、分類、回帰、クラスタリング、関連分析に分けられることがあります。


データマイニングの代表的な4つのアルゴリズム

データマイニングと機械学習は異なりますが、関連もあり、今後の記事で紹介する予定です。

<<:  ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明した人がいました。

>>:  信頼できる AI ソリューション プロバイダー 5 社

推薦する

機械学習は数字を数え、マウスをクリックしてモデルをトレーニングし、残りはコンピューターに任せます

[[432947]] JAVA ベースで開発された Weka は、機械学習やデータマイニングに適した...

エッジコンピューティングと人工知能について知っておくべき7つのこと

エッジ コンピューティングと AI はどのように連携するのでしょうか? エッジ コンピューティングが...

李徳易学士:人工知能の影響を最も受けている業界は教育

2019年12月22日、中国職業技術教育学会科学技術成果転換作業委員会が中国科学院コンピューティング...

...

LangChain と DeepInfra を使用してカスタマー サポート チャットボットを構築するためのガイド

翻訳者 |ブガッティレビュー | Chonglou日常のオンラインのやり取りの中でチャットボットを目...

...

自動車所有者は完全自動運転を導入すべきでしょうか?マスク氏:よく分かりません

北京時間7月27日、テスラは最近、自動車所有者に「完全自動運転」(FSD)機能のサブスクリプションを...

技術楽観論者と悲観論者がシリコンバレーでAIの危険性を議論

ChatGPTの立ち上げから1年以上が経った今、2023年のAIに関する最大の話題は、技術そのもので...

...

Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

レコメンデーションシステムの本質は、ユーザーのニーズが不明確な場合の情報過多の問題を解決し、ユーザー...

暗号化アルゴリズムの将来と現状の簡単な分析

[[357912]]現在最も一般的に使用されている暗号化アルゴリズムは、一方向暗号化と双方向暗号化に...

自動運転における車線逸脱警報システムの技術サポート

無人運転技術にはまだ改善の余地があるものの、ますます成熟しつつあることは認めざるを得ません。車線逸脱...

最高の AI 学習アプリ トップ 10

人工知能の革新により、ツールの使用方法は変化しています。 AI 学習アプリケーションは、適応型学習、...

AIがクラウドに依存しない理由:将来AIは疎外される

[[268251]] [51CTO.com 速訳] 人工知能の発展は希望と課題に満ちている。その「不...

大企業面接のための iAsk の「スケジュール アルゴリズム」、写真 20 枚が当たる

[[341122]]この記事はWeChatの公開アカウント「Xiao Lin Coding」から転載...