メイン検索と店内検索の共同最適化の予備調査と試み

メイン検索と店内検索の共同最適化の予備調査と試み

背景と概要

Taobao プラットフォームには、検索、推奨、広告など、多くのサブシナリオがあります。各サブシナリオには、多くの細分化があります。たとえば、検索にはデフォルトの並べ替え、店内検索、店舗検索などが含まれ、おすすめには、好みに合うもの、今日のおすすめ、日替わりのおすすめ店舗などが含まれます。データ駆動型の機械学習と最適化技術は現在、これらのシナリオで広く使用されており、良好な結果を達成しています。単一のシナリオ内での A/B テストでは、クリックスルー率、コンバージョン率、取引量、単価のすべてを大幅に改善できます。 ただし、現在、各シナリオは完全に独立して最適化されており、いくつかの深刻な問題が発生しています。

a. Taobao で買い物をするとき、ユーザーはメイン検索から「Guess What You Like」へ、そして「Guess What You Like」からストアへといった複数のシナリオを切り替えることがよくあります。さまざまなシナリオでの製品の並べ替えでは、そのシナリオ自体のみが考慮されるため、ユーザーにとって一貫性のない、または類似したショッピング エクスペリエンスにつながります。たとえば、冷蔵庫の詳細ページからストアに入ると、携帯電話が表示されます。すべてのシーンが似ており、U2I(クリックまたは販売された製品)が多すぎます。

b. 複数のシナリオはゲーム(競争)関係にあり、各シナリオの改善が全体の改善につながることは保証できません。あるシナリオの改善が他のシナリオの低下につながる可能性は非常に高いです。さらに恐ろしいのは、あるシナリオによってもたらされる改善が、他のシナリオのより大きな低下よりもさらに小さいことです。これは不可能ではありません。この場合、単一シーンの A/B テストはあまり意味がないように思われ、単一シーンの最適化には明らかな問題があります。これは特に重要なので、以下に示すように、より単純で理解しやすい例を挙げてみましょう。

1000メートルのビーチにAとBの2つのドリンクスタンドがあります。ビーチには多くの観光客が均等に分散しており、飲み物を買うときは通常、より近いドリンクスタンドを探します。最初、AとBはそれぞれビーチから250メートルと750メートル離れています。このとき、ビーチの左側にいる人はAに買い物に行き、右側にいる人はBに買い物に行きます。次に、A は右に移動するとユーザーが増えることに気づき (A/B テストの結論)、A は右に移動し、B は左に移動します。 A と B が最適化を続けると、両者とも浜辺の真ん中に到達します。ゲーム理論の観点から見ると、両者は均衡点に到達しています。しかし、「最適化された」場所は最初の場所ほど良いものではなく、遠すぎるために多くの観光客が飲み物の購入を諦めてしまうからです。この場合、2 つの飲料スタンドを個別に最適化した結果は、最適化しなかった場合よりも実際には悪くなります。

マルチシナリオ問題は Taobao だけに存在するわけではありません。現在、大規模なプラットフォームやワイヤレス アプリには複数のシナリオがあります。 YahooやSinaのような総合的なウェブサイトでなくても、BaiduやGoogleのような比較的シンプルで機能が集中したアプリケーションでも、いくつかのシナリオ(ウェブページ、相談、地図など)が存在します。すると、これらのプラットフォームやアプリケーションは同様の問題に直面することになります。 要約すると、大規模なオンラインプラットフォーム上で複数のサブシナリオの共同最適化を研究することは、Taobaoプラットフォームの応用と科学的研究の観点から非常に意義深いことです。

上記の問題を解決するために、本論文では、全体的な指標を改善するためのマルチシナリオ共同ランキングアルゴリズムを提案します。我々は、マルチシナリオソーティング問題を、完全に協力的で部分的に観測可能なマルチエージェントの順次意思決定問題とみなし、マルチエージェント強化学習法を使用して問題をモデル化しようとします。

このモデルは各シーンをエージェントとして使用し、各シーンの異なるソート戦略が同じ目標を共有できるようにします。同時に、あるシーンのソート結果には、他のシーンでのユーザーの行動とフィードバックが考慮されます。これにより、各シナリオの分類戦略が独立から協力および双方に有利なものに変わります。私たちは、すべてのシナリオでユーザーの行動を利用したいと考えており、DRQN の RNN ネットワークは履歴情報を記憶し、DPG を使用して連続状態と連続アクション空間を探索できるため、アルゴリズムを MA-RDPG (Multi-Agent Recurrent Deterministic Policy Gradient) と名付けました。

システム概要

従来の単一シーン最適化

現在、単一シナリオ ソート戦略の一般的な構造は次のとおりです。各製品は、一連の機能 (人気スコア、CTR スコアなど) によって表されます。ソート戦略は、一連の機能の重みを与えることでソート結果を決定します。製品のスコアは、各機能の加重合計です。メイン検索と店内検索にはそれぞれ独自のソート戦略があり、独立して最適化されており、相互に影響を与えません。

マルチシナリオジョイント最適化

現在、単一シナリオ ソート戦略の一般的な構造は次のとおりです。各製品は、一連の機能 (人気スコア、CTR スコアなど) によって表されます。ソート戦略は、一連の機能の重みを与えることでソート結果を決定します。製品のスコアは、各機能の加重合計です。メイン検索と店内検索にはそれぞれ独自のソート戦略があり、独立して最適化されており、相互に影響を与えません。

具体的な方法とアプリケーションについてはここをクリックしてください

<<:  人工知能は2018年にこれら5つの業界に革命を起こすだろう

>>:  李偉博士がブロックチェーンについてわかりやすく語る:技術原理、実用的応用、AIとの統合

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

持続可能なテクノロジー: 2024 年のテクノロジートレンドにおけるグリーンイノベーション

急速に進化するテクノロジーの世界では、イノベーションこそが私たちを持続可能な未来へと導く原動力となり...

ついに誰かがナレッジグラフをわかりやすく説明してくれた

[[382731]]この記事は、劉宇、趙紅宇らが執筆したWeChatパブリックアカウント「ビッグデー...

Nvidia は、実物大、数千ポンドを持ち上げることができるロボットなど 6 台のロボットを披露します...

近年、黄氏はグラフィックカードに加え、AIやロボットにもますます注目している。来月開催されるGTC ...

デジタル変革のケーススタディ: T-Mobile が AI を活用して顧客サービスをサポートする方法

AIソフトウェアはT-Mobileのコールセンターのエージェントが顧客に対応するのに役立っており、最...

アルゴリズムモデルの自動ハイパーパラメータ最適化手法

ハイパーパラメータとは何ですか?学習モデルには、一般的に 2 種類のパラメータがあります。1 つはデ...

GitHub の最も有名な 20 の Python 機械学習プロジェクトは収集する価値があります。

オープンソースは技術革新と急速な発展の中核です。この投稿では、Python 機械学習のオープンソース...

人工知能の時代が到来し、教育は大きく変わるかもしれません。未来の教育は人工知能をベースにしたものになるのでしょうか?

「大作 SF 映画」を見るのが好きな学生にとって、最も気に入っているのは、映画に遍在する人工知能か...

...

バイトマルチモーダル大規模モデル PixelLM: SA に頼らない効率的なピクセルレベル推論

マルチモーダルな大規模モデルが爆発的に増加していますが、画像編集、自動運転、ロボット工学などのきめ細...

クラウドで必要な 5 つの機械学習スキル

機械学習と AI は IT サービスにさらに深く浸透し、ソフトウェア エンジニアが開発したアプリケー...

AIは都市部の地震監視のノイズ問題を解決すると期待されている

人口密度が高く、重要な施設が多数存在する都市では、破壊的な地震が発生すると壊滅的な結果をもたらすこと...

今度のブレイン・コンピューター・インターフェースは人間の脳内の画像をリアルタイムで読み取ることができるのでしょうか?

脳コンピューターインターフェースは、言語の読み取りに加えて、人間の脳内の画像をリアルタイムで読み取る...

テンセント、自動運転のリアルタイム制御を改善する新たな特許を発表

テンセントテクノロジー(深圳)有限公司は5月13日、人工知能ベースの自動運転方法、デバイス、設備、媒...

悪いことを学ぶのは簡単ですが、良いことを学ぶのは難しいです!人工知能は人間の人種や性別の偏見を継承する

編集者注: サンスティーンは『インターネット共和国』でアルゴリズムが私たちの認知世界に影響を与えると...

人間は強力な人工知能の開発を心配する必要はない

[51CTO.com クイック翻訳] 現在、人工知能技術が「悪のロボット」に発展し、世界を支配するの...