2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

[[194046]]

2015 年、Quora のエンジニアリング部門長である Xavier Amatriain 氏は、Quora での「2015 年に Quora は機械学習をどのように活用しますか?」という質問に対して素晴らしい回答をしました。それ以来、Quora における機械学習の応用は大きく進歩しました。彼らは、既存の機械学習アプリケーション向けに、より大規模で優れたモデルの構築に取り組んでいるだけでなく、機械学習テクノロジーをより多くの分野に適用しています。

今年、Quora のエンジニアリング マネージャーである Nikhil Dandekar 氏は、Quora で同様の質問に答えました。「Quora は 2017 年に機械学習をどのように適用しますか?」以下の翻訳は Nikhil の回答から翻訳されたもので、著者の許可を得ています。原文「Quora は 2017 年に機械学習をどのように活用していますか」を参照してください。

Quora における機械学習の 5 つの主要な応用シナリオ

以下は、Quora プラットフォームの各部分の動作と、各部分に機械学習を適用する方法の詳細です。

1. 情報を探す

Quora は質問と回答を通じて知識を共有します。共有は、ユーザーが質問すること(または「情報ニーズ」)から始まります。ユーザーが質問すると、機械学習システムが質問を理解し始め、たとえば、質問から情報を抽出して後続の処理を容易にします。

私たちはコンテンツの品質に細心の注意を払っていますが、良いコンテンツは良い質問から始まります。当社の機械学習システムは質問を品質別に分類し、高品質の質問と低品質の質問を識別するのに役立ちます。質問の質に加えて、後続のプロセスで質問をどのように処理するかがわかるように、質問をさまざまなタイプに分類します。

***、各質問にトピック タグを付けて、質問がどのトピックに属しているかを示します。ほとんどのトピック モデリング システムは大量のテキストと少数のトピックを扱いますが、私たちは短いテキストと 100 万を超える潜在的なトピックを扱う必要があるため、これは私たちにとってより困難です。

誰が質問したか、どこで質問されたかなど、質問とコンテキストの特徴を抽出します。

質問するユーザーのニーズを満たすもう 1 つの方法は、既存の質問を検索して、質問に答えられるコンテンツを見つけられるようにすることです。当社にはそのようなシステムが 2 つあり、1 つは質問ボックス、もう 1 つは全文検索です。前者は、Quora ホームページの上部に質問ボックスを提供し、最も一致する質問をリストします。後者は、より詳細なコンテンツ マッチングを提供し、質問ボックスの [検索] ボタンをクリックすると、一致するコンテンツを表示できます。 2 つのシステムは、検索速度、一致度、検索の深さと幅が異なる異なるランキング アルゴリズムを使用します。

2. 質問に対する答えを見つける

「質問理解」システムの出力は、次のステップである専門家からの回答を得るための重要な入力になります。この段階では、問題の解決に機械学習システムを使用します。

回答のリクエスト (旧称「回答依頼」) は、ユーザーが他のユーザーに特定の質問への回答をリクエストできる Quora の製品機能です。私たちはこの機能を機械学習の問題として定式化しました。これについては、別のブログ記事「機械学習の問題としての Ask To Answer」で詳しく説明しています。

A2Aに加え、ホームページ上の質問フィードを通じて、主に未回答の質問と専門家のマッチングを行っています。シード質問のランキングは、私たちにとって非常に重要な機械学習の問題です。質問自体の属性、ユーザーの属性、およびその他の一連の生の属性を考慮し、それらをランキング モデルへの入力として使用して、ユーザー向けにテーマがあり、関連性があり、カスタマイズされたシードを生成します。以下のスクリーンショットは、数日前に私のトレントで発生した問題を示しています。

3. コンテンツを読む

上の写真からわかるように、シードには質問だけでなく答えも含まれています。シード回答のランキングは、私たちにとってもう一つの非常に重要な機械学習の問題です。質問のランキングと回答のランキングは、同様の基礎システムを使用しますが、目標が異なるため、基礎モデルで使用される機能は異なります。ユーザーにメールダイジェストを送信します。これは機械学習のもう 1 つのユースケースです。上記のランキングの問題はすべて、複数のモデルと多数の機能を使用して最終的なランキングを完成させる高度な機械学習システムによって解決されます。

Quora では、興味のある質問を見つけたユーザーに最高の読書体験を提供できるようにしたいと考えています。質問と回答のランキングも非常に重要な機械学習の問題であり、質問との関連性が最も高い回答が最上位にランク付けされるようにすることができます。回答のランキングの詳細については、「Quora での回答のランキング付けに対する機械的なアプローチ」の記事で説明しています。また、読者が最も関連性の高いレビューを最初に表示できるように、レビューのランク付けも行います。これらのランキング システムは、通常の賛成票や反対票をはるかに超えたものです。関連するユーザー特性、コンテンツの品質、エンゲージメントなどの情報を使用して、最終的なランキングを決定します。

また、ユーザーが質問に対する回答を読んだ後、より関連性の高いコンテンツを見つけられるようになることを期待しています。したがって、関連する質問を見つけることは、機械学習が提供するもう 1 つの機能になります。ユーザーが質問を閲覧しやすいように、質問ページに関連する質問のリストを表示します。関連トピックとトレンドトピックは、読者が Quora をより適切にナビゲートするのにも役立ちます。また、フォローすべきトピックやフォローすべきユーザーなどのセクションもホームページに設けており、これらもユーザーに対する理解に基づいてカスタマイズされた推奨システムです。

上記の機械学習システムの最も重要な要素はパーソナライゼーションです。パーソナライゼーションとは、製品とその基盤となるシステムが Quora のすべてのユーザーにとって関連性がある必要があることを意味します。当社のユーザー理解コンポーネントは、パーソナライゼーション システムの重要なコンポーネントです。ユーザーの好きなトピックや嫌いなトピック、さまざまな分野における専門知識、ソーシャル ネットワークの属性など、さまざまな特性を抽出します。また、ユーザーとトピックの関係、ユーザーとユーザーの関係など、さまざまな「ユーザーエンティティ」関係システムもあります。このパーソナライズされた情報は、「読み取り」アプリケーションへの入力として使用できるだけでなく、問題に一致する専門家を見つけるためにも使用できます。

4. 高品質のコンテンツを維持する

ユーザーエクスペリエンスに関しては、Quora のコンテンツの品質が非常に重要な要素となります。私たちは、質問、回答、トピック、その他のコンテンツが最初から高品質であり、高品質であり続けることを保証したいと考えています。これを実現するために、当社ではウェブサイト上のコンテンツの品質を確保するために、いくつかの機械学習システムを使用しています。

重複する質問の検出: 同じ目的の質問を検出し、1 つの質問に結合します。私たちはこの問題について議論し、問題を再現するデータセットをリリースし、Kaggle コンペティションを実施しました。

悪意のあるコンテンツの検出: Quora には「親切に、敬意を持って」というスローガンがありますが、オンライン コミュニティにとってこれは大きな課題です。当社では、機械学習と人間によるレビューの両方を使用して不快なコンテンツを特定し、ユーザーを保護し、快適な体験を保証します。

スパム検出: スパム検出は、ほとんどのユーザー生成コンテンツ アプリケーションにとって避けられない問題であり、当社のアプリケーションも例外ではありません。当社には、この問題を解決するために特別に設計された機械学習システムがいくつかあります。当社では、ウェブサイトのコンテンツの品質を維持するために、他にも多くの機械学習システムを使用していますが、ここですべてを列挙することはしません。

5. 広告の最適化

2016年に収益化を開始しました。質問ページには質問に関連した広告が表示されます。当社では、表示される質問がユーザーにとって最大限関連性が高く、広告主に最大の収益をもたらすことができるよう、機械学習を使用して広告の CTR を予測しています。ただし、収益化はまだ始まったばかりであり、今後もこの領域での機械学習の応用を拡大していきます。

上記の 5 つのアプリケーション シナリオに加えて、他の機械学習システムも使用しましたが、ここではすべてをリストしません。

モデルとライブラリ

当社のチームは最新のモデルとツールを使用するとともに、それらのツールを標準化して再利用できるようにしています。以下は、私たちが使用しているモデルの一部です(順不同)。

  • ロジスティック回帰
  • 弾性ネット
  • 勾配ブースティング決定木
  • ランダムフォレスト
  • (ディープ)ニューラルネットワーク
  • ラムダマート
  • 行列分解(SVD、BPR、重み付きALSなど)
  • ベクトルモデルとその他のNLPテクニック
  • k平均法およびその他のクラスタリング手法
  • 他の

また、TensorFlow、sklearn、xgboost、RankLib、nltk、QMF (Quora 独自の行列分解ライブラリ) などの多くのオープンソース ライブラリと内部ライブラリ、およびその他の内部ライブラリもサポートしています。

機械学習プラットフォーム

2015年以来、当社は独自の機械学習プラットフォームチームを構築してきました。このチームを結成する目的は、オフライン作業(モデルのトレーニング)とオンライン作業(サービスの提供)を含む機械学習エンジニアの作業を簡素化することです。オンライン作業に関しては、プラットフォーム チームは機械学習エンジニアに信頼性が高く可用性の高いビルドおよびデプロイメント システムを提供し、エンジニアは高性能で低コストのリアルタイム機械学習アプリケーションを構築およびデプロイできます。オフライン作業の場合、機械学習エンジニアはこのプラットフォームに基づいてデータ パイプラインを構築し、特徴をすばやく抽出し、再利用可能で標準化された方法でモデルをトレーニングできます。

<<:  データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

>>:  ディープラーニングの19の格闘技を見てください。絶滅危惧動物の保護にも役立ちます

ブログ    

推薦する

スタンフォード大学の人工知能レポート: 今からでも遅くはない

スタンフォード大学は3月3日、2021年人工知能指数レポートを発表しました。その中で、AI関連の学習...

人工知能の先駆者であるIBM Watsonは殉教者となったのか? IBMがWatsonを売却、AIは本当に失敗したのか?

かつて、人工知能医療診断の先駆者であったIBM Watson(通称ワトソン)は、現実世界における人工...

「AI論文のオープンソースコードの義務化に反対する理由」

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

詳細な分析: AI LLM フレームワークの通信モジュール - なぜそれがコア モジュールなのか

この記事は、AI LLMフレームワークアーキテクチャシリーズの第2弾です。通信モジュール人工知能 (...

IBMがWatson Healthの売却を計画しているが、AI医療はまだ手つかずのままか?

2月19日、IBMがWatson Health部門の売却を検討しており、会社を合理化してハイブリッ...

...

チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

10年前に放映されたアメリカのテレビシリーズ「ブラックミラー」の第1話のタイトルは「Be Right...

顔認識は簡単に破られるのでしょうか?虐待と闘う方法

未来産業研究所は、顔認識市場規模は今後5年間で平均23%の複合成長率を維持し、2024年までに市場規...

世界を理解する、最新のレビューは自動運転の新しい時代を開く

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ナレッジグラフの紹介と応用

[[376661]]人間は知識を獲得する過程で、物事の本質にますます注意を払うようになります。人工知...

アンドリュー・ン氏の新たな動き:「データ中心のAI」の拠点となる新たなMLリソースサイトを設立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

より良い生活を実現するために、Hongheの2019年の新製品が発売されました

最近、「Honhe AI、生活をより良くする--Honheグループ2019年新製品発表会」が成都で開...

2024年のデータセンターのトレンド: より高温、より高密度、よりスマート

今日のデータセンター業界は、AI テクノロジーの急速な普及、ムーアの法則の減速、そして厄介な持続可能...

ホワイトペーパー「マシンビジョンセキュリティカメラの画質評価手法に関する調査レポート」を公開

近年、マシンビジョンの成熟度が増すにつれ、マシンビジョン評価やイメージング能力評価が徐々に導入されて...

360 が顔認識分野に参入。「セキュリティ」の壁をどう克服するか?

スマートフォンや駅で顔認識技術が大規模に導入され始めており、誰もがこの新しい技術に精通しているはずで...