Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

レコメンデーションシステムの本質は、ユーザーのニーズが不明確な場合の情報過多の問題を解決し、ユーザーと情報を結び付け、一方ではユーザーが自分にとって価値のある情報を発見できるようにし、他方では興味のあるユーザーに情報を表示できるようにすることで、情報の消費者と情報の生産者（ここでの情報の意味は非常に広く、相談、映画、商品など、以下では総称してアイテムと呼びます）の双方にメリットをもたらすことです。 Daguanデータ関連の推奨は、Daguan推奨システムの重要な部分です。その価値は、ユーザーのポートレート情報がなくても、ユーザーに優れた推奨体験を提供できることにあります。たとえば、情報カテゴリでは、Daguan関連推奨アルゴリズムを通じて、そのアイテムに関連する他のアイテムを見つけることができ、特定のカテゴリやイベントをさまざまな角度や側面から深く読み取ることができます。この記事では、まず関連する推奨事項によく使用されるアルゴリズムを簡単に紹介し、次にアイテムの埋め込みに基づく協調フィルタリングを紹介します。

[[189825]]

1. Daguan関連の推奨のための共通アルゴリズム

1.1 コンテンツベースの関連推奨事項

コンテンツベースの推奨は、一般的に、アイテム間のタグセットの類似性を計算することでアイテム間の類似性を測定する、優れたタグ付けシステムに依存します。優れたタグ付けシステムは、さまざまな側面で磨きをかける必要があります。一方では、優れた編集が必要であり、他方では、製品を使用する際にユーザーがアイテムに高品質のタグを提供するようにガイドする製品設計に依存します。

1.2 協調フィルタリングに基づく関連推奨事項

協調フィルタリングは、主にドメインベースと潜在的意味モデルベースに分けられます。

ドメインベースのアルゴリズムの中で、ItemCF は業界で最も広く使用されているアルゴリズムです。その主なアイデアは、「アイテム A を好むユーザーは、アイテム B も好む」というものです。ユーザーの過去の操作ログをマイニングし、グループの知恵を使用して、アイテムの候補推奨リストを生成します。主に2つのアイテムの共起頻度をカウントし、時間を考慮し、人気のあるユーザーと人気のあるアイテムをフィルタリングして価値を下げます。

LFM（潜在因子モデル）潜在意味モデルは、近年の推奨システム分野で最も注目されている研究テーマです。このアルゴリズムはテキストマイニングの分野で初めて提案され、テキストの暗黙の意味を見つけるために使用されます。推奨分野では、暗黙の特徴を通じてユーザーの興味とアイテムを結び付けることがその中心的な考え方です。主なアルゴリズムには、pLSA、LDA、行列分解（SVD、SVD++）などがあります。これらの技術と方法は本質的に同じです。LFMを例にとると、ユーザーuのアイテムiに対する関心は次の式で計算されます。

式では、pu,k と qi,k はモデルのパラメータであり、pu,k はユーザー u の興味と k 番目の潜在クラスとの関係を測定し、qi,k は k 番目の潜在クラスとアイテム i との関係を測定します。 qi,k は、アイテムを潜在クラスで構成される空間に投影するものと見なすことができ、アイテムの類似性は潜在空間内の距離に変換されます。

2. item2vec: ニューラルアイテム埋め込み

2.1 ワード2ベクトル

2013 年半ば、Google がリリースした word2vec ツールが大きな注目を集めました。多くのインターネット企業がこれに追随し、多くの成果を生み出しました。 2016年、Oren BarkanとNoam Koenigsteinはword2vecのアイデアを借用し、item2vecを提案しました。SGNS（ネガティブサンプリング付きスキップグラム）トレーニングと組み合わせた浅いニューラルネットワークを通じて、アイテムは固定次元のベクトル空間にマッピングされ、アイテム間の類似性はベクトル演算を通じて測定されます。以下は item2vec の簡単な説明です:

item2vec は基本的に Google の word2vec メソッドに基づいており、推奨シナリオでの item2item 類似度計算に適用されるため、まずは word2vec の基本原理を簡単に紹介します。

Word2vec は主に単語のベクトル表現をマイニングするために使用されます。ベクトル内の数値は、文中の単語とコンテキスト情報の関係をモデル化できます。主に CBOW (連続バッグオブワード) と SG (スキップグラム) の 2 つのモデルが含まれます。CBOW モデルのシンプルなバージョンでは、コンテキストは 1 つの単語のみを考慮します (図 1 を参照)。

ニューラルネットワークには隠れ層が 1 つしかないと仮定します。入力層と出力層は、単語のワンホットエンコーディングで表されます。語彙サイズは V と仮定します。隠れ層のニューロンの数は N です。隣接する層のニューロンは完全に接続されています。層間の重みは、V*N 行列 W で表されます。隠れ層から出力層への活性化関数には、ソフトマックス関数が使用されます。

ここで、wI、wjは語彙内の異なる単語、yjは出力層のj番目のニューロンの出力、ujは重み行列Wを介した入力層から隠れ層へのスコア、uj'は重み行列W'を介した隠れ層から出力層へのスコアです。このニューラルネットワークをトレーニングするには、まずバックプロパゲーションアルゴリズムを使用してネットワーク出力と実際の値の差を計算し、次に勾配降下法を使用してレイヤー間の重み行列を逆に更新して更新式を取得します。

ここで、η は更新ステップサイズ、ej はモデル予測と真値の間の誤差、h は隠れ層ベクトルです。

図2は、文脈が複数の単語である場合の状況を示しています。中間の隠れ層hの計算は、

変更する

つまり、入力ベクトルは複数のコンテキストベクトルの平均であり、その後のパラメータ学習は上記の単一の単語のコンテキストに似ています。コンテキストとターゲットの単語のペアのトレーニングセット全体を走査し、複数の反復後にモデルパラメーターを更新することで、モデル内のベクトルへの影響が蓄積され、最終的に単語のベクトル表現が学習されます。

Skip-gram の入力層と出力層は、CBOW のものと入れ替えただけです。違いは、CBOW はコンテキストベースで、モデルを通じて現在の単語を予測するのに対し、skip-gram は現在の単語を通じてコンテキストを予測することです。

これまでのところ、語彙内の各単語には、入力ベクトルと出力ベクトルの 2 つのベクトル表現があり、入力層から隠れ層への重み行列 W の行ベクトルと、隠れ層から出力層への重み行列 W' の列ベクトルに対応しています。式 4 と 5 からわかるように、各トレーニングサンプルでは、語彙内のすべての単語をトラバースする必要があります。したがって、出力ベクトルを学習するための計算量は非常に大きくなります。トレーニングセットまたは語彙の規模が大きい場合、トレーニングは実際のアプリケーションでは実行可能ではありません。この問題を解決する直感的なアプローチは、各トレーニングサンプルで更新する必要がある出力ベクトルを制限することです。Google は、モデルのトレーニングを高速化する階層型ソフトマックスとネガティブサンプリングという 2 つの方法を提案しました。ここでも、これらについては詳しく説明しません。

2.2 アイテム2ベクトル

NLP 分野における wordvec の大成功に触発されて、Oren Barkan と Noam Koenigstein はアイテムベースの CF を使用して、低次元潜在空間におけるアイテムの埋め込み表現を学習し、アイテムの関連推奨を最適化しました。

単語の文脈とは、隣接する単語の並びのことです。単語の並びは、実際には連続して操作される一連の項目列に相当することは容易に想像できます。したがって、トレーニングコーパスでは、文章を連続して操作される一連の項目列に変更するだけで済みます。項目間の共起が正サンプルであり、負サンプルは項目の頻度分布に従ってサンプリングされます。

Oren Barkan と Noam Koenigstein は SVD をベースラインとして使用し、SVD の隠しクラスと item2vec の次元を両方とも 40 に設定しました。彼らは、Microsoft Xbox Music サービスによって収集されたユーザーアーティストデータセットを使用して、図 3 に示すように結果をクラスタ化しました。図 a は item2vec の集約効果、図 b は SVD 分解の集約効果です。item2vec の集約効果の方が優れているようです。

著者は、Daguan データの関連推奨事項に item2vec を適用しようとしました。情報や短いビデオのシナリオでは、一般的に連続的なアイテム操作が多いため、item2vec を使用してアイテムのベクトル表現をトレーニングすることは当然非常に適しています。実際のトレーニング結果とオンライン評価から、item2vec は明らかに CTR の向上に役立ちます。

この記事の著者:

Fan Xiongxiong 氏は Daguan Data のパーソナライズされた推奨エンジンエンジニアです。彼の仕事には、推奨システムのアーキテクチャ設計と開発、推奨効果の最適化などが含まれます。彼のチームが開発したパーソナライズされた推奨システムは、オンライン化後に効果が 300% 向上したという記録を打ち立てました。復旦大学でコンピュータサイエンスとテクノロジーの修士号を取得。iQiyi で数多くのビッグデータ製品を開発し、パーソナライズされた推奨事項、データマイニングと分析、ユーザー行動モデリング、ビッグデータ処理に関する深い理解と実践経験を持っています。

[この記事は51CTOコラムニスト「Daguan Data」によるオリジナル記事です。転載については51CTOコラムまでご連絡ください]

この著者の他の記事を読むにはここをクリックしてください

<<: 李開復：人工知能の「7つのブラックホール」は、最終的にはオープンエコシステムに置き換えられるだろう

>>: ケビン・ケリーがAIブームを解説：超人的なAIを暴く5つの神話