Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

Zipf 行列分解: 推奨システムにおけるマシュー効果を解決する強力なツール

[[407036]]

[51CTO.com からのオリジナル記事]アルゴリズムの公平性は、近年、推奨システムにおける重要な研究方向となっています。多くの研究者や技術者がこの課題に対して多大な努力を払ってきました。推奨シナリオの入力データには通常、マシュー効果があるため、計算の中間プロセスと結果に影響を与えます。 2017年以降、マシュー効果を含む推奨システムの公平性の問題が大きな注目を集めています。 2020年、レコメンデーションシステムのサブフィールドにおける権威あるカンファレンスであるRecSysにおける関連論文の数は、かつてないレベルに達しました。 SIGIR や WWW などのトップカンファレンスでも、ランキング学習の公平性に関する論文が数多く発表されています。 Google などの関連企業も独自の推奨システム公平性フレームワークを持っています。

推奨システムにおけるマシュー効果を解決するためによく使用されるフレームワークは、損失関数にペナルティ項を追加することです。ペナルティ項の選択は研究論文によって異なりますが、相関関係などの多くのペナルティ項は、理論レベルではマシュー効果の範囲を正確に反映できません。 先日終了した2021年の国際学術会議ICAIBD 2021では、推薦システムにおけるマシュー効果に関する論文「Zipf Matrix Factorization: Matrix Factorization with Matthew Effect Reduction」が発表され、ペナルティ項の選択方法の問題を理論レベルで解決し、実験結果を通じて推薦システムが技術性能と公平性指標の両方を向上できることを実証しました。

Zipf 行列分解は、推奨システムの結果におけるアイテムのマシュー効果を測定するための統計指標を初めて明確に提案しました (以下に示すように)。

ここで、x は推奨システムの出力結果におけるアイテムの人気ランキングを表します。

ペナルティ項を追加した後の損失関数を下の図に示します。

損失関数を最適化するプロセスでは、ヒートランキング x の値はわからず、推定することしかできません。著者は、ペナルティなしの線形方程式と行列分解のシステムを使用して x 値を近似し、その後、確率的勾配降下法などの方法を使用して損失関数を解くことができます (以下に示すように)。

著者は次のように MovieLens データセットでアルゴリズム MAE をテストしました。

青い線で表される Zipf 行列分解 MAE 曲線の全体的なパフォーマンスは、ペナルティ項のない元の行列分解アルゴリズムよりも優れていることがわかります。次の図は、アルゴリズムのパフォーマンスが向上した一方で、Matthew 効果も向上したことを示しています。

Zipf 行列分解アルゴリズムは実装が簡単で、優れたパフォーマンスを発揮します。これは、推奨システムにおけるマシュー効果を解決するための強力なツールです。人工知能アルゴリズムの公平性の問題がますます注目されるようになると、人類は最終的にマトリックスの霧から抜け出し、人間と機械の平和的共存の夜明けを迎えることになるでしょう (マトリックス)。私たちは、私たちの周りで起こっている偉大な科学技術革命を目撃し、このような歴史的な瞬間にいることができて幸運です。

オリジナルリンク: https://arxiv.org/abs/2106.07347

著者について

テクニカル ディレクター兼建築家の Wang Hao 氏は、ユタ大学で学士号/修士号を取得し、国際ビジネス経済大学で MBA を取得しています。 Baidu、Sina、NetEase、Doubanなどの企業で長年にわたり研究開発と技術管理に携わっており、機械学習、ビッグデータ、推奨システム、ソーシャルネットワーク分析などの技術に長けています。彼はTVCGやASONAMなどの国際会議やジャーナルに11本の論文を発表している。国際学術会議IEEE SMI 2008およびICBDT 2020で最優秀論文賞を受賞。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  第4のパラダイム: AIによる意思決定が主要なビジネスシナリオを強化し、企業の質的変化の実現を支援

>>:  6月にはロボット産業が再び活況を呈し、数十億元の資金調達が相次いだ。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2024年のビッグデータと関連分野の予測

データ分析オムニチャネルコマースが拡大するにつれ、広告分析の状況は劇的に変化しようとしています。オン...

AIツールは企業にデータ侵害のリスクをもたらす

2021年以降、企業内部者によるデータ侵害、損失、盗難は月平均28%増加しており、回答者の85%は今...

AIは地球上のあらゆる言語を翻訳できるよう自ら学習できる

fastcompany によると、最近登場した 2 つの機械翻訳システムは、人間が翻訳したテキストか...

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...

...

マイクロソフト、2023年までに8つの人工知能プロジェクトをオープンソース化へ

著者 | ツァミア・アンサリ企画 | ヤン・ジェンマイクロソフトは、ソフトウェア大手の元CEO、ステ...

MITの新しい研究によると、機械学習ではフェイクニュースを検知できない

MITの研究者らが発表した2つの新しい論文は、現在の機械学習モデルがフェイクニュース報道を区別する能...

H100推理が8倍に急上昇! NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

GPU が不足している人々は、その苦境に別れを告げようとしています。 NVIDIA は現在、H10...

推薦システムで学ぶべき対照的な学習方法

みなさんこんにちは。私はDiaobaiです。今日は、レコメンデーションシステムで学ぶべき対照学習法に...

...

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

自動化がビジネスに具体的な価値をもたらす方法

[[404690]]長年にわたり、多くの企業がロボット、自動化、人工知能などのテクノロジーからより多...

Java における equals() と == の違いと使い方

Java 開発において、一見単純な質問ですが、インターネット上には多くのトピックや質問があります。...

データセンター管理者は AI と ML の爆発的な増加にどのように備えればよいのでしょうか?

生成 AI と機械学習 (ML) は急速に一般の人々の意識に入り込み、これらの有望なテクノロジーの能...