タオバオ：電子商取引環境における強化学習のいくつかのアプリケーションと研究に関する30,000語の詳細な分析

背景

検索技術が発展するにつれ、検索シナリオにおける教師あり学習アルゴリズムの限界が徐々に認識されるようになりました。

検索シナリオでは、現在の配信戦略によって上位にランク付けされた製品のみが露出される機会を得て、教師あり学習の正のサンプルと負のサンプルが形成されます。ただし、露出された製品は、リコールされた製品全体のごく一部を占めるに過ぎず、トレーニングサンプルは現在のモデルのバイアスの影響を大きく受けます。
教師あり学習の損失関数とビジネスが重視する指標の間に矛盾がある
ユーザーの検索、クリック、購入の行動は、連続した一連の意思決定プロセスです。教師ありモデルではこのプロセスをモデル化できず、長期的な累積報酬を最適化することはできません。

同時に、Atariゲームや囲碁ゲームに代表される強化学習のディープラーニングとその応用は、近年前例のない発展を遂げています。これにより、私たちはこの古くて流行の技術に注目し、重要な技術開発ルートとして活用し始めました。私たちは、複数のビジネスやシナリオで強化学習モデリングを順次実行し、いくつかの初期成果を達成しました。関連する作業はすでに整理され、公開されています。同時に、強化学習アルゴリズムの現在の理論上の上限と業界の大規模なノイズの多いデータの間には依然として大きなギャップがあり、それを埋めるにはさらなる知恵が必要であることも私たちはよく認識しています。

[[216098]]

強化学習に基づくリアルタイム検索ランキング制御

Taobao の検索エンジンは、数億点の商品に対してミリ秒レベルの処理と応答を行います。Taobao のユーザーは数が多いだけでなく、行動特性や商品に対する好みも豊富で多様です。

したがって、検索エンジンがさまざまな特性を持つユーザーをターゲットにしたランキングを作成し、それによって検索誘導による取引の増加を促進することは、非常に困難な問題です。従来の Learning to Rank (LTR) 方式は、主に製品の次元で学習し、製品のクリックとトランザクションデータに基づいて学習サンプルを構築し、ランキングの重みを回帰します。

コンテキスト LTR 方式では、コンテキスト情報に基づいてユーザーごとに異なるランキング結果を提供できますが、ユーザーの製品検索が継続的なプロセスであることを考慮していません。この継続的なプロセスのさまざまな段階は孤立しているのではなく、密接に関連しています。つまり、ユーザーが製品を購入するか購入しないかという最終的な選択は、単一の並べ替えによって決まるのではなく、一連の検索並べ替えの結果によって決まります。

この記事の残りの部分では、Taobao の具体的なソリューションについて詳しく紹介します。

詳細はここをクリックしてください！

強化学習はなぜ役立つのでしょうか? ——検索ランキングシナリオにおける遅延報酬の役割の分析

私たちは、商品の並べ替え戦略を動的に調整したり、パーソナライズされた表示の割合を制御したり、価格 T の変更を制御したりするなど、検索シナリオで強化学習 (RL) を使用して多くの試みを行ってきました。

これらのシナリオで強化学習を適用することは、順次的な意思決定の観点からは理にかなっています。しかし、次のようないくつかの基本的な疑問にはまだ答えていません。

検索シナリオで強化学習を使用することと多腕バンディットを使用することの本質的な違いは何ですか?

全体としての累積的な利益を最適化することと、各意思決定ステップの即時的な利益を個別に最適化することの違いは何ですか?

同僚からこのような質問をされると、私たちはいつも納得のいく答えを出すことができません。なぜなら、私たちはまだ重要な疑問について考えていないからです。つまり、検索シナリオの順次的な意思決定プロセスにおいて、任意の決定ポイントで行われた決定と、その後に得られる結果との間の相関関係はどの程度大きいのでしょうか。

強化学習の観点から見ると、これは、以前の決定に対する遅延インセンティブとして、後続の結果のどの程度をフィードバックするかを意味します。言い換えれば、検索シナリオにおける遅延フィードバックの役割を理解する必要があります。

この記事では、検索シナリオで製品の並べ替え戦略を調整する例を取り上げて、この問題について引き続き説明します。

この記事の残りの部分は次のように構成されています。

第 2 章では、検索ランキングの問題のモデリングについて説明します。
第3節では、最近のオンラインデータ分析の結果を紹介します。
セクション 4 では、検索ランキングの問題を正式に定義します。
第 5 章と第 6 章では、それぞれ理論的分析と実験的分析を行い、結論を導き出します。

詳細はここをクリックしてください！

強化学習に基づく階層型交通制御

現在、タオバオはかなりの規模の経済圏になっており、そのため、社会経済学で議論される問題は、例外なくほぼ常にここで生じています。初期の頃、Taobao は主に効率を優先して商品展示モデルを最適化していたため、消費者には「低価格で売れ筋の商品」という固定観念が植え付けられました。これは当時の歴史的な制約による結果でしたが、長期的には私たちが望むものではありません。

社会環境の変化に伴い、人々の消費意識も変化しており、時代の変化に対応できず、事前の準備さえできなければ、競合他社に追い抜かれ、チャンスを逃してしまう可能性があります。近年の当ブランドの運営の結果、「ドレス」などのワードで検索しても、9.9元で送料無料の商品を見つけるのは難しくなりましたが、3年前はまだこれが非常に一般的でした。

ブランドや顧客の注文などの要素は、前述の厚生経済学の第二定理における賦存分配と同様に、一連の計画された経済的手段を通じて介入されます。これらはグローバルな観察と思考に基づいており、ローカルなクローズドシステム（検索ランキングオプティマイザーなど）を通じて実現することは困難であり、不可能です。

そのため、ますます多くの運営と製品の同僚は、上記の考慮事項に照らして、多くの介入の階層化を提案しています。ここでの階層化とは、製品/販売業者のタイプの分割を指し、さまざまな次元から分類できます。たとえば、Tmallの販売業者は、プラットフォームに対する重要性に応じてA、B、C、Dの販売業者に分けることができます。製品は、ブランドの影響力に応じて注目度の高い製品と一般的な製品に分けることができます。製品は、価格などに応じてハイエンド、ミッドレンジ、ローエンドの製品に分けることができます。

アルゴリズムを初めて学ぶ学生は、これらのことに十分な注意を払わないかもしれません。古典的なアプローチは単純な重み付けですが、通常は効率が失われるため、結果はほとんど決定的ではありません。しかし、この問題を注意深く見てみると、純粋な市場競争は現在の需要と供給の関係の下で徐々に最適化され、局所最適値に到達するため、損失は避けられないことが実際に予測できます。したがって、この局所最適値が大きな外乱によって破られると、破られた瞬間に効率損失が避けられませんが、その後、以前の安定点よりも良い点に到達する機会があります。

詳細はここをクリックしてください！

バーチャルタオバオ（共同研究プロジェクト）

強化学習がいくつかのシナリオ（囲碁の AlphaGo など）に適用されると、戦略探索のコストは非常に低くなります。電子商取引のシナリオでは、戦略の探索にかかるコストは比較的高額です。戦略の評価には 1 日かかることもあり、戦略が悪ければ経済的損失につながることも少なくありません。これはオンライン強化学習アプリケーションでよく見られる問題であり、実際のシナリオでの強化学習の適用を制限します。

この課題を解決するために、私たちは強化学習の著名な専門家である南京大学機械学習・データマイニング研究所の楊宇准教授と綿密な協力を行い、リバースモデリング環境を通じて、戦略探索にほとんどコストがかからず、戦略評価を迅速に行うことができる「タオバオシミュレーター」の構築を試みました。さらに、このようなシミュレータでは、さまざまな RL アルゴリズムをオフラインで試すことができるだけでなく、さまざまな生態学的シミュレーション実験を実行して戦略的な意思決定を支援することもできます。

参加者: Alibaba 検索部門 - AI テクノロジーとアプリケーション: Hu Yujing、Zhan Yusen、Pan Chunxiang、Da Qing、Zeng Anxiang

バーチャルタオバオパートナー：南京大学：石静成、陳世勇、于洋（准教授）

これら 4 つの記事は、Taobao の実践的な経験と組み合わせ、約 30,000 語を使用して、電子商取引環境における強化学習のいくつかのアプリケーションと研究を深く分析します。詳細はここをクリックしてください！

<<: はっきり言って、Alipay の年間請求額はほんの始まりに過ぎません。AI があらゆる場所に存在する未来において、プライバシーはどこにあるのでしょうか?

>>: エンティティ認識と関係抽出におけるディープラーニングの応用に関する簡単な分析