ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ、あいまい、ランダム、断片化されたデータから、隠れた価値、潜在的に有用な情報や知識を発見するプロセスです。どのような状況でどのアルゴリズムを使用すればよいのでしょうか? 今日はビッグデータ アルゴリズムについて紹介します。

1. 統計分布

統計分布(度数分布)は「頻度分布(分布)」とも呼ばれます。統計的グループ化に基づいて、人口内のすべての単位がグループに分類および整理され、グループ間の人口単位の分布が形成されます。各グループに分布する単位の数は、次数または頻度と呼ばれます。各グループ内の回数と総回数(母集団内のユニットの総数)の比率を率または頻度と呼びます。グループと頻度が順番に並べられた順序は、統計分布順序、または略して分布順序と呼ばれます。これは、さまざまなグループ間の人口内のすべての単位の分布状況と分布特性を反映することができます。この分布特性を研究することは、統計分析の重要な部分です。上記のようにBLABLAはたくさんあります。何ができるのか見てみましょう。

1) 平均

例えば、中国の男性はここ数年「脂ぎっている」というレッテルを貼られてきました。「2017年中国スポーツレポート」によると、少なくとも歩く量で言えば、男子は女子より多く歩きます。男子は1日平均5,874歩歩くのに対し、女子は1日平均5,268歩歩きます。スポーツに力を入れ、考え方をアップデートすることで、中国の男性は若々しさを維持できるかもしれない。

2) 前年比および前四半期比の成長

前年比は、一般的に今年の n 月と昨年の n 月の比較を指します。

前月比とは、連続する 2 つの単位期間 (たとえば、連続する 2 か月) 内の数量の変化率を指します。

3) ガウス分布

正規分布は、「正規分布」またはガウス分布とも呼ばれ、二項分布の漸近式を求める中で A. ド・モアブルによって初めて得られました。 CF ガウスは測定誤差を研究する際に別の観点からこれを導き出しました。 P.S. ラプラスとガウスはその性質を研究しました。これは数学、物理学、工学において非常に重要な確率分布であり、統計の多くの側面に大きな影響を与えます。

ガウス分布をどのように使用するのでしょうか? たとえば、この画像は誰もが見たことがあると思います。できるだけ多くのユーザーのコンピュータの起動時間を収集し、時間がどのように分布しているかを確認します。

4)ボソン分布

ポアソン分布は、統計学や確率論でよく見られる離散確率分布です。1838 年にフランスの数学者シメオン=ドニ・ポアソンによって発表されました。

小さな Baisong ディストリビューションは、ビッグデータ分野の大きな問題を解決できます。役立つ情報がここにあります。

例 1:電子商取引や倉庫管理にご興味がおありでしたら、ぜひお越しください。小さな食料品店では、1 週間に平均 2 缶の果物が販売されていることが知られています。この店の缶詰フルーツの在庫はどれくらいですか?

季節要因がないと仮定すると、この問題はおおよそ次の 3 つの条件を満たしていると考えられます。

  • a. 顧客が缶詰の果物を購入する可能性は低い。
  • b. 缶詰フルーツを購入する顧客は独立しており、互いに影響を及ぼしません。
  • c. 顧客が缶詰の果物を購入する確率は安定している。

統計学では、ある種の事象が上記の 3 つの条件を満たす限り、「ポアソン分布」に従います。

式に従って、週ごとの売上の分布を計算します。上記の表から、在庫が 4 缶ある場合、在庫切れにならない確率は 95% (平均 19 週間に 1 回) であることがわかります。在庫が 5 缶ある場合、在庫切れにならない確率は 98% (平均 59 週間に 1 回) です。

5) ベルヌーイ分布

ベルヌーイ分布(英語:Bernoulli distribution、2 点分布または 0-1 分布とも呼ばれる)は、スイスの科学者ヤコブ・ベルヌーイにちなんで名付けられた離散確率分布です。一般的に言えば、一つの物事に対して起こり得る結果は 2 つしかありません。ベルヌーイ分布は、ある結果の確率が a であり、別の結果の確率が 100%-a である状況を表します。もっと簡単に言うと、子供を産むとき、男の子が生まれる確率はp、女の子が生まれる確率は1-pです。これがベルヌーイ分布です。

<<:  ガートナーレポート: 私たちはデータサイエンスと機械学習ツールの「大爆発」の時代を迎えている

>>:  機械学習で必ず学ぶべき 10 のアルゴリズム

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

パスワード危機: ディープラーニングがパスワードクラッキングを加速!

情報セキュリティの専門家は、「生成的敵対ネットワーク」(GAN)がオンラインセキュリティをどのように...

...

...

...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...

Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

[[407036]] [51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨...

...

ディープラーニングの未来: ニューラル進化

この記事では主に、ニューロエボリューションがディープラーニングの未来であるという点と、進化的計算手法...

SQL Server 2008 の 9 つのデータ マイニング アルゴリズム

1. 決定木アルゴリズム決定木は判断木とも呼ばれ、バイナリ ツリーやマルチ ブランチ ツリーに似たツ...

...

2017年の人工知能の挫折

今年、AIプロジェクトのAlphGoとLibratusが、それぞれ囲碁とテキサスホールデムポーカーで...

人工知能の新時代が近づいています。従来の産業の従事者はどこへ向かうのでしょうか?

世間の好むと好まざるとにかかわらず、人工知能の新しい時代が静かに到来した。しかし、人工知能が本格的に...

...

インテリジェントな音声対話サービスはますます良くなり、従順であることも芸術である

スマートスピーカー、スマートフォン、スマートブレスレット、スマートエアコンなどのデバイスを購入するこ...

70年前、彼は試験を避けたかったが、インターネット全体に影響を与えた

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...