多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー」がどのような側面で発現するのか、企業が機械学習モデルを導入する際にどのような点に注意すべきなのかについては、明確に説明されていない記事が多くあります。今年の KDD カンファレンスで採択された論文の中には、世界最大のオンライン旅行代理店 Booking.com が、顧客向けの 150 の成功した機械学習アプリケーションとそこから学んだ 6 つの教訓を分析した論文を寄稿しました。この記事はこの論文の簡単な要約です。 「150 の成功した機械学習モデル: Booking.com で学んだ 6 つの教訓」は、Booking.com で成功した約 150 の顧客向け機械学習アプリケーションとそこから学んだ教訓を組み合わせた優れたレビューです。奇妙なことに、論文のタイトルにもかかわらず、これらの 6 つの教訓は本文に明示的に記載されていません。しかし、論文の区分からこれらの部分を推測することは可能であり、私の解釈は次のとおりです。
もちろん、この論文に記載されている 6 つの提案以外にも、優れた提案は数多くあります。 実際のビジネスへの影響を実現することは非常に困難であり、モデリングの取り組みと観察された影響との関連性を分離して理解することは困難であることがわかりました。私たちの主な結論は、機械学習を使用してこれら 150 の成功した製品を構築するための鍵は、他の分野を統合する反復的な仮説主導のプロセスにあるということです。 この引用文を、機械学習に投資する価値がないと言っていると解釈しないでください。それどころか、ユーザー向けのシナリオで機械学習モデルを設計、構築し、正常に展開する組織の能力を向上させることは、State of DevOps レポートで言及されている高業績組織の他のすべての特性と同様に、組織の競争力を向上させるための基本であると私は信じています。 (また、将来のレポートでその仮説を確認または否定するデータを見るのは興味深いと思いませんか?) Booking.com はモデルを構築する際にどのような問題を解決する必要がありましたか?「世界最大のオンライン旅行代理店」であるBooking.comについて聞いたことがあるかもしれません。ユーザーに優れた旅行体験を提供することは、主に次の要因により困難な作業です。 推薦のリスクは大きいです。間違った宿泊施設を予約するのは、気に入らない映画をストリーミングするよりもはるかに悪いです。 ユーザーが旅行を予約する際、実際に探しているものに関する十分な情報が提供されないことがよくあります。 宿泊施設の供給は限られており、価格の変化は宿泊客の選択傾向に影響を与えます。 ゲストの好みは、プラットフォームを使用するたびに変わる可能性があります (たとえば、年に 1 回か 2 回しか予約しない場合など)。 宿泊施設に関する情報が多すぎて、ユーザーが時間内に理解することができません。 この150モデルとは何ですか?約 150 の機械学習モデルが本番環境に導入されており、機械学習は Booking.com のユーザー エクスペリエンスのあらゆる側面に影響を与えています。一部のモデルは非常に具体的で、特定のコンテキスト内の特定の状況に焦点を当てています。他のモデルはセマンティック レイヤーのようなもので、ユーザーの行動の終点に基づいてユーザーの柔軟性を予測するモデルなど、複数のコンテキストで役立つ特定の概念をモデル化します。 Booking.com が使用するモデルは、大きく 6 つのカテゴリに分けられます。
レッスン 1: 機械学習モデルを使用したプロジェクトは大きなビジネス価値を生み出すBooking.com では、これらの各モデルがビジネス価値をもたらします。機械学習を使用しない他の成功したプロジェクトと比較すると、機械学習をベースにしたプロジェクトはより高い収益を生み出す傾向があります。 図2: さまざまなモデルのビジネスへの影響と中央値の影響の比較 そして、一度使用されると、すぐに商業的な利益が得られるだけでなく、さらなる製品開発の基礎となることもよくあります。下の図は、一連の製品展開の影響を示しています。各展開は、以前の展開を基に構築され、ビジネス成果を継続的に向上させています。 図 3: 推奨製品に関する一連の実験。各実験では、機械学習の問題の特定のドメインまたは設定に特化した新しいバージョンをテストします。バーの長さは、第1版と比較した観測値です(すべての統計的に有意な差) レッスン 2: モデルのパフォーマンスはビジネスのパフォーマンスと同じではないBooking.com は、ランダム化比較試験を使用して、モデルが特定のビジネス指標に与える影響を測定し、モデルによって生成される価値を推定します。 興味深い発見がありました。モデルのパフォーマンスを向上させても、必ずしもビジネス価値が上がるわけではないのです。 その理由としては、商品価値の飽和(何をやってもこれ以上搾り取るものがない)、オーディエンスが少ないことによる部分的な飽和(新旧モデルの効果はほぼ同じ)、クリックスルーなど間接的な指標の一部が最適化されすぎていて、それがうまく商品指標(コンバージョン率など)に変換できないこと、下図で説明した不気味の谷効果(人型玩具やロボットの模擬度が高ければ高いほど好感度は上がるが、ある臨界点を超えると急激に好感度が下がり、人間に似れば似るほど嫌悪感や恐怖感を抱くようになり、どん底に達する。この効果を不気味の谷効果という)などが考えられる。 図 5: 不気味の谷: 人々は、予測が正確すぎることを好まないことがあります (マルコフ連鎖ベースの目的地推奨機能)。写真のユーザーは「booking.comは、私がザルツブルクに行く前にウィーンに行かなければならないことをどうやって知ったのか?」と不満を述べている。 レッスン3: 解決しようとしている問題を理解するモデルの構築を開始する前に、解決しようとしている問題を慎重に定義するために時間をかける必要があります。 問題をフレーミングするプロセスでは、ビジネス ケースまたは概念を入力として受け取り、定義されたモデリング問題 (通常は教師あり機械学習問題) を出力として受け取り、ビジネス ケースまたは概念をモデル化するための適切なソリューションを見つけます。 いくつかの驚くべき改善は、特定のシステム内でモデルを最適化することではなく、システム自体を変更することから生まれます。たとえば、クリック データに基づくユーザー嗜好モデルを、ゲスト レビュー データに基づく自然言語処理の問題に変更します。 多くの場合、最良の質問はすぐに思いつく質問ではなく、質問の構成を変えることが隠れた価値を引き出す強力な方法になり得ることが分かりました。 レッスン4: 予測の遅延は大きな問題ですパフォーマンスがビジネス指標に与える影響について、もう 1 つ重要なポイントがあります。 Booking.com は、人工的な遅延を導入した実験で、遅延が約 30% 増加すると、コンバージョン率が 0.5% 低下することを発見しました。 「これは当社の事業運営にとって重要なコストです。」 これは、予測を行うために強力なコンピューティング リソースを必要とする機械学習モデルに特に関係します。数学的に単純なモデルであっても、結果に影響を及ぼす遅延が生じる可能性があります。 Booking.com では、水平方向のスケーラビリティを実現するために複数のモデル コピーを配布したり、独自のカスタマイズされた線形予測エンジンを開発したり、パラメータの少ないモデルを優先したり、リクエストをバッチ処理したり、事前計算やキャッシュを実行したりするなど、さまざまな方法を使用して、モデルによって発生するレイテンシを削減しています。 レッスン5: モデルの品質に関する早期フィードバックを得るモデルがリクエストを処理するとき、出力の品質を監視することが重要ですが、解決が容易ではない問題が少なくとも 2 つあります... 真のラベルを観察することが困難であり、フィードバックが不完全になります。 遅延フィードバック。たとえば、ユーザーが予約を行うと、モデルはユーザーがレビューを残すかどうかを予測しますが、予測の精度は旅行が完了するまで評価できません。 Booking.com には、この状況でバイナリ分類問題にうまく機能するトリックがあります。それは、モデルによって生成された応答の確率分布を調べることです。 「明確なプラトーを持つ滑らかな二峰性分布は、通常、モデルが 2 つのクラスをうまく区別できることを示しています。」その他の形状 (下の図を参照) は、モデルに何らかの問題がある可能性があることを示しています。 図7: 応答分布グラフの例 …証拠によれば、応答分布の分析は、モデルの欠陥を早期に検出するのに非常に役立つことが示唆されています。 レッスン 6: ランダム化比較試験でモデルのビジネスへの影響をテストするこの記事で検討した機械学習の成功事例のほとんどには、洗練された実験設計が伴っており、その中には開発プロセスを導くものや影響を検出するように設計されたものもありました。 この記事では、さまざまな状況で実験を設定する方法についての提案を示します。
図8:選択的トリガーの実験設計
図9:モデル出力に依存するトリガーの実験設計と、パフォーマンスへの影響を測定するためのコントロールグループ
図10:モデルを比較する際の実験設計 結論仮説に基づく反復と学際的な統合は、機械学習で価値を生み出す方法の核となる強みです。この研究が他の機械学習実践者に指針を提供し、このトピックに関するさらなる探究を促すことを願っています。 |
<<: Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達
>>: 売上高2,684億元の背後にあるアリババのAI技術の全貌
国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...
人間レベルのパフォーマンス、人間レベルの精度…顔認識、物体検出、問題解決など、AI システムを開発す...
人工知能技術と他の技術の最大の違いは、人間の頭脳労働の一部を代替できるだけでなく、一部の分野では人間...
私たちはなぜ眠るのでしょうか? 明らかな理由の一つは、体と手足の力を回復することです。しかし、睡眠の...
エッジ インテリジェント テクノロジーのエンジニアリング プラクティスを紹介する前に、避けることので...
11月29日、米国時間火曜日に開催されたReinventカンファレンスにおいて、アマゾンのクラウドコ...
ここ数週間、ユーザーは Microsoft Edge に組み込まれている GPT-4 AI チャット...
著者 | タニスタ編纂者:Xing Xuan制作:51CTO テクノロジースタック(WeChat I...
プログラマーからデータ エンジニアまで、プログラム コードを書くことは基本的なスキルですが、長いコー...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ディープラーニングは多くの初心者にとってわかりにくいかもしれません。急速に発展するにつれて、多くの新...
AI技術の飛躍的な発展に伴い、攻撃者はAIの武器化を加速させ、ソーシャルエンジニアリング技術と組み合...
マーケティングに AI を使用すると、代理店の専門家の作業がさまざまな点で楽になります。消費者に合わ...