推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

協調フィルタリング

協調フィルタリング (CF) とそのバリエーションは、最も一般的に使用される推奨アルゴリズムの 1 つです。データサイエンスの初心者でも、履歴書プロジェクトなど、自分専用の映画推奨システムを構築するために使用できます。

ユーザーに何かを推奨したい場合、最も論理的な方法は、そのユーザーと同じ趣味を持つユーザーを見つけ、その行動を分析して、同じものを推奨することです。あるいは、ユーザーが以前購入した商品に似たものに焦点を当て、類似の商品を推奨することもできます。

協調フィルタリング (CF) には、ユーザーベースの協調フィルタリング技術とアイテムベースの協調フィルタリング技術という 2 つの基本的な方法があります。

推奨アルゴリズムは、上記の各シナリオで 2 つのステップで構成されます。

1. データベース内のユーザー/アイテムのうち、対象のユーザー/アイテムに類似するものがいくつあるかを調べます。

2. 製品のユーザー/アイテムに類似するユーザー/アイテムの合計重みを考慮して、他のユーザー/アイテムを評価し、関連製品のユーザーに与える評価を予測します。

このアルゴリズムにおける「最も類似」とはどういう意味ですか?

ここで得られるのは、各ユーザーの嗜好ベクトル (行列 R の列) と、各製品に対するユーザー評価のベクトル (行列 R の行) です。

まず、両方のベクトルで値がわかっている要素のみを保持します。

たとえば、ビルとジェーンを比較したい場合、ビルはタイタニックを見たことがなく、ジェーンはバットマンを見たことがないとわかっている場合、彼らの類似性はスターウォーズによってのみ測定できます。スターウォーズを観ない人がいるでしょうか? (笑顔)

類似性を測定する最も一般的な方法は、ユーザー/アイテム ベクトルのコサイン類似度または相関を測定することです。最後のステップは、類似度に基づいて加重算術平均法を使用して、表内の空のセルを埋めることです。

推奨のための行列分解

もう一つの興味深いアプローチは、行列分解を使用することです。これはエレガントな推奨アルゴリズムです。通常、行列を因数分解するときに、結果の行列の行と列のどの項目が保持されるかについてはあまり考慮しないためです。しかし、推奨ツールを使用すると、u は i 番目のユーザーの興味に関するベクトルであり、v は j 番目の映画のパラメータに関するベクトルであることが明確にわかります。

次に、u と v のドット積を取ることで、x (i 番目のユーザーが j 番目の映画に付けた評価) を推定できます。既知の評価を使用してこれらのベクトルを構築し、それを使用して未知の評価を予測します。

たとえば、行列分解後、Ted のベクトル (1.4; .9) と映画 A のベクトル (1.4; .8) が得られます。これで、(1.4; .9) と (1.4; .8) のドット積を計算するだけで、映画 A-Ted の評価を復元でき、評価結果は 2.68 になります。

クラスタリング

以前の推奨アルゴリズムは比較的単純で、小規模なシステムに適していました。そして現在に至るまで、私たちは推奨問題を教師あり機械学習タスクとして捉えてきました。今こそ、このような問題に教師なしの方法で取り組むべき時です。

協調フィルタリングと行列分解に長い時間を要する大規模な推奨システムを構築していると想像してください。最初のアイデアはクラスタリングです。

ビジネスの初期段階では、事前のユーザー分類が不足していることが多く、クラスタリングが最適な方法です。

しかし、クラスタリングを単独で使用した場合、実際にはユーザーのグループを識別し、このグループ内のすべてのユーザーに同じものを推奨することになるため、クラスタリングは少し弱くなります。十分なデータがある場合は、最初のステップとしてクラスタリング手法を使用する方がよいでしょう。これにより、協調フィルタリング アルゴリズムで関連する近傍の選択を減らすことができます。複雑な推奨システムのパフォーマンスも向上します。

各クラスターには、そのクラスターに属するユーザーの好みに基づいて代表的な好みが割り当てられます。クラスター内の各ユーザー セットには、クラスター レベルで計算された推奨事項が送信されます。

レコメンデーションシステムのためのディープラーニング手法

過去 10 年間で、ニューラル ネットワークの開発は大きく進歩しました。現在、さまざまなアプリケーションで使用されており、従来の機械学習手法に徐々に取って代わっています。以下では、YouTube でディープラーニング手法がどのように使用されているかを示します。

言うまでもなく、このようなサービスのためのレコメンデーション システムを構築することは、その規模の大きさ、常に変化するコーパス、そしてさまざまな観測不可能な外部要因のため、非常に困難な作業です。

「YouTube 推奨システム向けディープ ニューラル ネットワーク」に関する関連研究によると、YouTube 推奨システム アルゴリズムには、ニューラル ネットワークの 2 つの部分が含まれています。1 つは候補生成用、もう 1 つはソート用です。時間が足りない場合は、ここで簡単に要約します。

候補生成ネットワークは、ユーザーの履歴を入力として使用することで、ビデオの数を大幅に削減し、大規模なコーパスから最も関連性の高いビデオのセットを選択できます。生成された候補セットはユーザーにとって最も関連性が高く、このニューラル ネットワークの目的は、協調フィルタリングを通じて幅広いパーソナライゼーション サービスを提供することです。

このステップでは、ユーザーのニーズに近い候補結果の数が少なくなります。私たちの現在の目標は、最善の決定を下せるよう、すべての候補者を慎重に分析することです。このタスクはランキング ネットワークによって実行され、ビデオを説明するデータとユーザーの行動に関する情報を使用する目的関数に従って各ビデオにスコアを割り当てます。

2 段階のアプローチを使用すると、大規模なビデオ コーパスからビデオを推奨できますが、これらの推奨のうち、パーソナライズされ、実際にユーザーによって適用されるのはごくわずかであることが確実です。この設計により、他のリソースによって生成された結果とこれらの候補結果を混在させることもできます。

推奨タスクは、極端な多クラス分類問題のようなもので、予測問題は、特定の時間 t におけるユーザー (U) とコンテキスト (C) に基づいて、コーパス (V) 内の何百万ものビデオの中から特定のビデオ (wt) をクラス (i) に正確に分類する問題になります。

独自の推奨システムを作成する前に注意すべき重要なポイント:

  • 大規模なデータベースがあり、それをオンライン推奨に使用したい場合、この問題を 2 つのサブ問題に分割するのが最適です。1) 上位 N 個の候補結果を選択する、2) それらをランク付けする。
  • モデルの品質をどのように測定しますか?標準化された品質指標に加えて、推奨問題に関する特定の指標として、Recall@k、Precision@k などがあります。推奨システムの最もわかりやすい指標を確認することもできます。
  • 分類アルゴリズムを使用して推奨問題を解決する場合は、ネガティブサンプルの生成を検討する必要があります。ユーザーが推奨アイテムを購入した場合、それをポジティブサンプルとして追加したり、残りをネガティブサンプルとして扱ったりしないでください。
  • アルゴリズムの品質のオンラインとオフラインのスコアリングを検討してください。過去のデータのみでトレーニングされたモデルは、アルゴリズムが将来の新しいトレンドや好みに関する知識を持たないため、単純な推奨事項を生成する可能性があります。

<<:  【WOTI】English FluencyのLin Hui氏:教育分野でのAIはまだ初期段階にある

>>:  機械学習は増加傾向にありますが、そのアルゴリズムの結果は公正なのでしょうか?

ブログ    
ブログ    

推薦する

Spark Graphx はグラフの最大クリークマイニング、疑似並列アルゴリズムを実装します

[[206073]] ####背景:#### Spark graphxは最大クリークマイニングアルゴ...

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

AIのブラックボックス問題をどう解決するか?ニューラルネットワークモデルアルゴリズムが答えを導きます

AIが特定のタスクを完了することは目新しいことではありません。結局のところ、AIは産業、医療、農業な...

機械学習は金融自動化においてどのような役割を果たすのでしょうか?

金融やその他の分野における自動化は避けられません。しかし、金融サービスの自動化は、高いレベルの注意、...

人工知能を活用して室内装飾デザインを最適化する方法

インテリアデザインや装飾に AI を応用することで、エンジニアやインテリアデザイナーは、機械学習によ...

人気の機械学習プログラミング言語、フレームワーク、ツール14選

[51CTO.com クイック翻訳] 増え続けるプログラミング言語ライブラリやツールの中から、機械学...

建設業界はAIとIoTの次の大きなターゲット

建設業界は、革新、破壊、あるいは何と呼ぼうと、何らかの変化が起こりやすい時期にあります。以前にも書い...

AI はモノのインターネットをどのように改善するのでしょうか?

スマートテレビやスマート冷蔵庫からスマートフォンやスマート音声デバイスまで、モノのインターネット (...

...

GoogleはAIを使って「ヘッドフォンケーブル」をトレーニングし、タッチスクリーンのほとんどの機能を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データ サイエンスの初心者の場合は、まずはここにいくつかのアルゴリズムを紹介します。

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

AI採用を本当に公平にすることは難しいかもしれない

アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...

ロボット犬が3トンの飛行機を10メートル引っ張った

今日のロボット犬は、人間に簡単につまずかされるような時代をとうに過ぎています。新しく公開されたビデオ...

人工知能を搭載したロボットは私たちの生活からどれくらい離れているのでしょうか?

産業用ロボットは幅広い用途でますます利用されるようになっているわが国は世界最大かつ最も活発な産業用ロ...

ヤン・ルカンのチームの新しい研究結果:自己教師あり学習のリバースエンジニアリング、クラスタリングはこのようにして達成されることが判明

自己教師あり学習 (SSL) は近年大きな進歩を遂げており、多くの下流タスクにおいて教師あり学習法の...