2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

[[194046]]

2015 年、Quora のエンジニアリング部門長である Xavier Amatriain 氏は、Quora での「2015 年に Quora は機械学習をどのように活用しますか?」という質問に対して素晴らしい回答をしました。それ以来、Quora における機械学習の応用は大きく進歩しました。彼らは、既存の機械学習アプリケーション向けに、より大規模で優れたモデルの構築に取り組んでいるだけでなく、機械学習テクノロジーをより多くの分野に適用しています。

今年、Quora のエンジニアリング マネージャーである Nikhil Dandekar 氏は、Quora で同様の質問に答えました。「Quora は 2017 年に機械学習をどのように適用しますか?」以下の翻訳は Nikhil の回答から翻訳されたもので、著者の許可を得ています。原文「Quora は 2017 年に機械学習をどのように活用していますか」を参照してください。

Quora における機械学習の 5 つの主要な応用シナリオ

以下は、Quora プラットフォームの各部分の動作と、各部分に機械学習を適用する方法の詳細です。

1. 情報を探す

Quora は質問と回答を通じて知識を共有します。共有は、ユーザーが質問すること(または「情報ニーズ」)から始まります。ユーザーが質問すると、機械学習システムが質問を理解し始め、たとえば、質問から情報を抽出して後続の処理を容易にします。

私たちはコンテンツの品質に細心の注意を払っていますが、良いコンテンツは良い質問から始まります。当社の機械学習システムは質問を品質別に分類し、高品質の質問と低品質の質問を識別するのに役立ちます。質問の質に加えて、後続のプロセスで質問をどのように処理するかがわかるように、質問をさまざまなタイプに分類します。

***、各質問にトピック タグを付けて、質問がどのトピックに属しているかを示します。ほとんどのトピック モデリング システムは大量のテキストと少数のトピックを扱いますが、私たちは短いテキストと 100 万を超える潜在的なトピックを扱う必要があるため、これは私たちにとってより困難です。

誰が質問したか、どこで質問されたかなど、質問とコンテキストの特徴を抽出します。

質問するユーザーのニーズを満たすもう 1 つの方法は、既存の質問を検索して、質問に答えられるコンテンツを見つけられるようにすることです。当社にはそのようなシステムが 2 つあり、1 つは質問ボックス、もう 1 つは全文検索です。前者は、Quora ホームページの上部に質問ボックスを提供し、最も一致する質問をリストします。後者は、より詳細なコンテンツ マッチングを提供し、質問ボックスの [検索] ボタンをクリックすると、一致するコンテンツを表示できます。 2 つのシステムは、検索速度、一致度、検索の深さと幅が異なる異なるランキング アルゴリズムを使用します。

2. 質問に対する答えを見つける

「質問理解」システムの出力は、次のステップである専門家からの回答を得るための重要な入力になります。この段階では、問題の解決に機械学習システムを使用します。

回答のリクエスト (旧称「回答依頼」) は、ユーザーが他のユーザーに特定の質問への回答をリクエストできる Quora の製品機能です。私たちはこの機能を機械学習の問題として定式化しました。これについては、別のブログ記事「機械学習の問題としての Ask To Answer」で詳しく説明しています。

A2Aに加え、ホームページ上の質問フィードを通じて、主に未回答の質問と専門家のマッチングを行っています。シード質問のランキングは、私たちにとって非常に重要な機械学習の問題です。質問自体の属性、ユーザーの属性、およびその他の一連の生の属性を考慮し、それらをランキング モデルへの入力として使用して、ユーザー向けにテーマがあり、関連性があり、カスタマイズされたシードを生成します。以下のスクリーンショットは、数日前に私のトレントで発生した問題を示しています。

3. コンテンツを読む

上の写真からわかるように、シードには質問だけでなく答えも含まれています。シード回答のランキングは、私たちにとってもう一つの非常に重要な機械学習の問題です。質問のランキングと回答のランキングは、同様の基礎システムを使用しますが、目標が異なるため、基礎モデルで使用される機能は異なります。ユーザーにメールダイジェストを送信します。これは機械学習のもう 1 つのユースケースです。上記のランキングの問題はすべて、複数のモデルと多数の機能を使用して最終的なランキングを完成させる高度な機械学習システムによって解決されます。

Quora では、興味のある質問を見つけたユーザーに最高の読書体験を提供できるようにしたいと考えています。質問と回答のランキングも非常に重要な機械学習の問題であり、質問との関連性が最も高い回答が最上位にランク付けされるようにすることができます。回答のランキングの詳細については、「Quora での回答のランキング付けに対する機械的なアプローチ」の記事で説明しています。また、読者が最も関連性の高いレビューを最初に表示できるように、レビューのランク付けも行います。これらのランキング システムは、通常の賛成票や反対票をはるかに超えたものです。関連するユーザー特性、コンテンツの品質、エンゲージメントなどの情報を使用して、最終的なランキングを決定します。

また、ユーザーが質問に対する回答を読んだ後、より関連性の高いコンテンツを見つけられるようになることを期待しています。したがって、関連する質問を見つけることは、機械学習が提供するもう 1 つの機能になります。ユーザーが質問を閲覧しやすいように、質問ページに関連する質問のリストを表示します。関連トピックとトレンドトピックは、読者が Quora をより適切にナビゲートするのにも役立ちます。また、フォローすべきトピックやフォローすべきユーザーなどのセクションもホームページに設けており、これらもユーザーに対する理解に基づいてカスタマイズされた推奨システムです。

上記の機械学習システムの最も重要な要素はパーソナライゼーションです。パーソナライゼーションとは、製品とその基盤となるシステムが Quora のすべてのユーザーにとって関連性がある必要があることを意味します。当社のユーザー理解コンポーネントは、パーソナライゼーション システムの重要なコンポーネントです。ユーザーの好きなトピックや嫌いなトピック、さまざまな分野における専門知識、ソーシャル ネットワークの属性など、さまざまな特性を抽出します。また、ユーザーとトピックの関係、ユーザーとユーザーの関係など、さまざまな「ユーザーエンティティ」関係システムもあります。このパーソナライズされた情報は、「読み取り」アプリケーションへの入力として使用できるだけでなく、問題に一致する専門家を見つけるためにも使用できます。

4. 高品質のコンテンツを維持する

ユーザーエクスペリエンスに関しては、Quora のコンテンツの品質が非常に重要な要素となります。私たちは、質問、回答、トピック、その他のコンテンツが最初から高品質であり、高品質であり続けることを保証したいと考えています。これを実現するために、当社ではウェブサイト上のコンテンツの品質を確保するために、いくつかの機械学習システムを使用しています。

重複する質問の検出: 同じ目的の質問を検出し、1 つの質問に結合します。私たちはこの問題について議論し、問題を再現するデータセットをリリースし、Kaggle コンペティションを実施しました。

悪意のあるコンテンツの検出: Quora には「親切に、敬意を持って」というスローガンがありますが、オンライン コミュニティにとってこれは大きな課題です。当社では、機械学習と人間によるレビューの両方を使用して不快なコンテンツを特定し、ユーザーを保護し、快適な体験を保証します。

スパム検出: スパム検出は、ほとんどのユーザー生成コンテンツ アプリケーションにとって避けられない問題であり、当社のアプリケーションも例外ではありません。当社には、この問題を解決するために特別に設計された機械学習システムがいくつかあります。当社では、ウェブサイトのコンテンツの品質を維持するために、他にも多くの機械学習システムを使用していますが、ここですべてを列挙することはしません。

5. 広告の最適化

2016年に収益化を開始しました。質問ページには質問に関連した広告が表示されます。当社では、表示される質問がユーザーにとって最大限関連性が高く、広告主に最大の収益をもたらすことができるよう、機械学習を使用して広告の CTR を予測しています。ただし、収益化はまだ始まったばかりであり、今後もこの領域での機械学習の応用を拡大していきます。

上記の 5 つのアプリケーション シナリオに加えて、他の機械学習システムも使用しましたが、ここではすべてをリストしません。

モデルとライブラリ

当社のチームは最新のモデルとツールを使用するとともに、それらのツールを標準化して再利用できるようにしています。以下は、私たちが使用しているモデルの一部です(順不同)。

  • ロジスティック回帰
  • 弾性ネット
  • 勾配ブースティング決定木
  • ランダムフォレスト
  • (ディープ)ニューラルネットワーク
  • ラムダマート
  • 行列分解(SVD、BPR、重み付きALSなど)
  • ベクトルモデルとその他のNLPテクニック
  • k平均法およびその他のクラスタリング手法
  • 他の

また、TensorFlow、sklearn、xgboost、RankLib、nltk、QMF (Quora 独自の行列分解ライブラリ) などの多くのオープンソース ライブラリと内部ライブラリ、およびその他の内部ライブラリもサポートしています。

機械学習プラットフォーム

2015年以来、当社は独自の機械学習プラットフォームチームを構築してきました。このチームを結成する目的は、オフライン作業(モデルのトレーニング)とオンライン作業(サービスの提供)を含む機械学習エンジニアの作業を簡素化することです。オンライン作業に関しては、プラットフォーム チームは機械学習エンジニアに信頼性が高く可用性の高いビルドおよびデプロイメント システムを提供し、エンジニアは高性能で低コストのリアルタイム機械学習アプリケーションを構築およびデプロイできます。オフライン作業の場合、機械学習エンジニアはこのプラットフォームに基づいてデータ パイプラインを構築し、特徴をすばやく抽出し、再利用可能で標準化された方法でモデルをトレーニングできます。

<<:  データ構造とアルゴリズムソート - 理解できないなら、私に相談してください

>>:  ディープラーニングの19の格闘技を見てください。絶滅危惧動物の保護にも役立ちます

ブログ    
ブログ    
ブログ    

推薦する

初め!プログラム可能なメモリスタコンピュータが誕生しました!

[[271164]]人類史上初のプログラム可能なメモリスタ コンピュータが誕生しました。音声コマン...

歩行者の軌道予測に効果的な方法と共通基本方法は何ですか?トップカンファレンスの論文を共有しましょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

新たなブレークスルー:科学者が脳のようなナノワイヤネットワークを開発し、AIが人間のリアルタイム学習と記憶を模倣できるようにする

11月3日、研究者らは脳内の神経ネットワークを模倣することで動的に学習し記憶できる物理的なニューラル...

ヒット曲予測の成功率は97%?このリストは「偽造品と戦う」ためにあります

トレンドや動向を予測することは、あらゆる業界が熱心に取り組んでいることです。これにより、実務者は業界...

AI駆動型ソフトプラスチック選別ロボットがプラスチック廃棄物危機の解決に貢献

近年、プラスチックのリサイクルは改善されてきましたが、埋め立て地に廃棄されるプラスチック廃棄物は大き...

.NET 6 でのハッシュ アルゴリズムの簡略化された使用

[[422468]]この記事はWeChatの公開アカウント「amazingdotnet」から転載した...

遺伝的アルゴリズムに基づく高周波タグアンテナの最適設計

無線周波数識別技術は、無線、非接触の自動識別技術であり、近年開発された最先端の技術プロジェクトです。...

Google、一般的な皮膚疾患を識別するための新しいAIツールを発表

5月19日、海外メディアの報道によると、人工知能はヘルスケア分野で多くの用途があるため、Google...

...

...

今日のトーク: 人工知能、ロボット、そして中国のバレンタインデー

[[417375]]あと一日で中国のバレンタインデーになります。遠く離れたアルタイルと明るいベガは、...

...

梅の花の山の上を歩くロボット犬?自転車は自分でバランスをとることができますか?テンセント・ロボティクスXラボ研究初の「開封」

テンセントは11月20日、移動ロボット研究における新たな進展を発表し、四足移動ロボット「ジャモカ」と...

...