平均と分散のマップ削減 一連の数値の平均と分散の式は誰にとっても明らかだと思います。マップ関数とリデュース関数の設計方法については、計算式から始めることができます。n 個の数値、つまり a1、a2....an があるとすると、平均 m=(a1+a2+...an) / n、分散 s= [(a1-m)^2+(a2-m)^2+....+(an-m)^2] / n となります。 分散式を S=[(a1^2+.....an^2)+m^m*n-2*m*(a1+a2+....an) ] / n に展開します。これに基づいて、マップ エンドの入力を (key, a1) に、出力を (1, (n1, sum1, var1)) に設定できます。n1 は各ワーカーによって計算された数値の数を表し、sum1 はこれらの数値の合計 (たとえば、a1+a2+a3...)、var1 はこれらの数値の二乗の合計 (たとえば、a1^2+a2^2+...) です。 この情報を受け取った後、reduce 側は直ちにすべての入力 n1、n2... を加算して n を取得し、sum1、sum2... を加算して sum を取得し、平均 m=sum/n を計算し、var1、var2... を加算して var を取得し、分散 S=(var+m^2*n-2*m*sum)/n を計算し、reduce 出力は (1,(m,S)) になります。 アルゴリズムコードは、mrjob の実装に基づいています (https://pythonhosted.org/mrjob/、機械学習実践の第 15 章) オリジナルリンク: http://www.cnblogs.com/kobedeshow/p/3600328.html |
人工知能 (AI) を習得したいと考えている企業にとって、AI はコストを節約し、競争上の優位性を獲...
パートナーシップ、会社登録、資金調達なしで、独立系開発者の Li Xiaoyu は継続的に実践と反復...
ChatGPTやGPT-4などの大型モデルの発表により、人工知能技術の進歩と応用が注目されるようにな...
最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...
IT は遠くありません。DT はすでにここにあります。 DT 時代の到来により、「データ + ...
丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...
[[159157]]アルゴリズムは私たちの生活にますます影響を与えています。しかし、ほとんどの場合...
今日の人工知能分野では、「GPUがあれば十分」というのが徐々にコンセンサスになってきています。十分な...
「人間のニューラルネットワークはどのように機能するのか?」この質問は多くのデータ サイエンティスト...
ほとんどの CIO は、自社のビジネスがテクノロジーのトレンドに追いつくために GenAI の検討を...
2016年頃から、多くのメディアが「どの仕事がAIに置き換えられるか」を予測し始めたとぼんやりと記...