上級アーキテクトが初めて秘密を明かす：Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

[[217643]]

現在、アルゴリズムの配布は、情報プラットフォーム、検索エンジン、ブラウザ、ソーシャルソフトウェアなど、ほぼすべてのソフトウェアの標準機能となっていますが、同時に、アルゴリズムは疑問、課題、誤解にも直面し始めています。

ネットユーザーがまとめた主要プラットフォームの推奨アルゴリズム（おもしろバージョン）

Toutiao の推奨アルゴリズムは、2012 年 9 月に最初のバージョンが開発され運用されて以来、4 回にわたって大きな調整と修正が行われてきました。

Toutiaoは、業界全体にアルゴリズムの診断と提案を促すために、上級アルゴリズム設計者の曹環環博士にToutiaoのアルゴリズムの原理を公開するよう依頼しました。アルゴリズムを透明化することで、各界からのアルゴリズムに関する誤解をなくし、アルゴリズムが社会にもっと役立つように業界全体を徐々に促進することができます。

Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

この共有では、主に5つの側面からToutiaoの推奨原則を紹介します。

システム概要
コンテンツ分析
ユーザータグ
評価と分析
コンテンツセキュリティ

システム概要

推奨システムは、正式に説明すると、実際にはコンテンツに対するユーザーの満足度に合わせた機能です。

この関数では、3 次元の変数の入力が必要です。

コンテンツ。 Toutiaoは現在、写真、テキスト、動画、UGCショート動画、Q&A、マイクロToutiaoを含む総合的なコンテンツプラットフォームとなっています。各コンテンツタイプには独自の特徴があり、適切な推奨を行うには、異なるコンテンツタイプの特徴をどのように抽出するかを検討する必要があります。
ユーザー特性。さまざまな興味タグ、職業、年齢、性別などのほか、モデルによって表現される多くの暗黙的なユーザーの興味が含まれます。
環境特性。これはモバイルインターネット時代に推奨される機能です。ユーザーはいつでもどこでも移動し、仕事、通勤、旅行などのさまざまなシナリオで情報の好みも変化します。

これら 3 つの次元を組み合わせることで、モデルは推奨コンテンツがこのシナリオのこのユーザーに適しているかどうかを推定します。

ここでもう一つ疑問があります。直接測定できない目標をどのように導入するかということです。

推奨モデルでは、クリック率、閲覧時間、いいね、コメント、リポスト、いいねはすべて定量化可能な目標です。モデルを直接当てはめて推定を行うことができ、オンライン改善によってパフォーマンスが良好かどうかを判断できます。

しかし、多数のユーザーにサービスを提供する大規模なレコメンデーションシステムは指標だけで評価することはできず、データ指標以外の要素を導入することも重要です。

たとえば、広告や特別なコンテンツの頻度制御などです。質問と回答のカードは比較的特殊なコンテンツ形式です。これらの推奨の目的は、ユーザーが閲覧できるようにするだけでなく、ユーザーが回答したりコミュニティにコンテンツを投稿したりするように促すことも考慮することです。これらのコンテンツを通常のコンテンツとどのように組み合わせるか、またその頻度をどのように制御するかを検討する必要があります。

さらに、コンテンツの生態と社会的責任を考慮して、プラットフォームはコンテンツにさらに介入する必要があります。たとえば、下品なコンテンツ、クリックベイト、低品質のコンテンツを抑制し、重要なニュースをピン留め、重み付け、挿入し、低レベルのアカウントのコンテンツを降格するなどです。これらはすべてアルゴリズム自体では実現できないことであり、コンテンツへのさらなる介入が必要です。

以下では、上記のアルゴリズムの目標に基づいてそれを達成する方法について簡単に紹介します。

上記の式 y = F(Xi, Xu, Xc) は、古典的な教師あり学習の問題です。これを実現する方法はたくさんあります。

たとえば、従来の協調フィルタリングモデル、教師あり学習アルゴリズムのロジスティック回帰モデル、ディープラーニングベースのモデル、因数分解マシン、GBDT などです。

優れた産業グレードの推奨システムには、モデル構造の調整を含む複数のアルゴリズムの組み合わせをサポートできる非常に柔軟なアルゴリズム実験プラットフォームが必要です。これは、すべての推奨シナリオに適したユニバーサルなモデルアーキテクチャを持つことが困難であるためです。

現在、LR と DNN を組み合わせることが非常に一般的です。数年前、Facebook も LR と GBDT アルゴリズムを組み合わせました。

Toutiao 傘下のいくつかの製品は、同じ強力なアルゴリズム推奨システムを使用していますが、モデルアーキテクチャはさまざまなビジネスシナリオに応じて調整されます。

モデルの次は、典型的な推奨機能について見てみましょう。推奨において比較的重要な役割を果たす主な機能は 4 つあります。

関連性機能は、コンテンツの属性がユーザーに一致するかどうかを評価することです。明示的な一致には、キーワード一致、カテゴリ一致、ソース一致、トピック一致などが含まれます。 FM モデルには暗黙的な一致もいくつかあり、これはユーザーベクトルとコンテンツベクトル間の距離から導き出すことができます。
地理的な場所や時間などの環境特性。これらは両方ともバイアス機能であり、いくつかの一致する機能を構築するために使用できます。
熱特性。世界的な人気度、カテゴリーの人気度、トピックの人気度、キーワードの人気度などが含まれます。コンテンツの人気情報は、特にユーザーが初めて使用する場合には、大規模な推奨システムで非常に効果的です。
コラボレーション機能は、いわゆるアルゴリズムがどんどん狭くなっていく問題をある程度解決するのに役立ちます。コラボレーション機能では、ユーザーの既存の履歴は考慮されません。

代わりに、クリック類似度、興味分類類似度、トピック類似度、興味ワード類似度、さらにはベクトル類似度など、ユーザー行動を通じてさまざまなユーザー間の類似度を分析することで、モデルの探索機能を拡張します。

モデルのトレーニングに関しては、Toutiao の推奨製品のほとんどはリアルタイムトレーニングを使用しています。リアルタイムのトレーニングはリソースを節約し、迅速なフィードバックを提供します。これは情報フロー製品にとって非常に重要です。

ユーザーの行動情報はモデルによってすぐにキャプチャされ、次回の更新の推奨効果にフィードバックされます。現在、クリック、表示、お気に入り、共有、その他のアクションタイプを含むサンプルデータを、Storm クラスターに基づいてオンラインでリアルタイムに処理しています。

モデルパラメータサーバーは、社内で開発された高性能システムです。Toutiao のデータサイズが急速に拡大しているため、同様のオープンソースシステムでは安定性とパフォーマンスの要件を満たすことができません。当社は自社開発システムの基盤層に多くのターゲットを絞った最適化を施し、完全な運用および保守ツールを提供し、既存のビジネスシナリオにより適しています。

現在、Toutiao の推奨アルゴリズムモデルは世界でも比較的大規模であり、数百億のオリジナル機能と数十億のベクトル機能が含まれています。

全体的なトレーニングプロセスは、オンラインサーバーがリアルタイム機能を記録し、それを Kafka ファイルキューにインポートし、さらにそれらを Storm クラスターにインポートして Kafka データを消費するというものです。クライアントは推奨ラベルを返送してトレーニングサンプルを構築し、最新のサンプルに基づいてオンライントレーニングを実行してモデルパラメータを更新します。最後に、オンラインモデルが更新されます。

このプロセスの主な遅延は、ユーザーのアクションフィードバックの遅延です。これは、ユーザーが記事を推奨された直後に読まない可能性があるためです。この時間を除けば、システム全体はほぼリアルタイムです。

しかし、現在のToutiaoのコンテンツ量は非常に大きく、短編動画コンテンツは数千万本に上るため、レコメンデーションシステムがモデルを通じてすべてのコンテンツを推定することは不可能です。

したがって、推奨が行われるたびに、膨大な量のコンテンツから何千ものコンテンツライブラリをフィルター処理するためのリコール戦略を設計する必要があります。リコール戦略の最も重要な要件は極めて高いパフォーマンスであり、タイムアウトは通常 50 ミリ秒を超えることはできません。

リコール戦略には多くの種類がありますが、主に逆ソートアプローチを使用します。転置インデックスはオフラインで維持されます。この転置インデックスのキーは、カテゴリ、トピック、エンティティ、ソースなどです。並べ替えでは、人気度、鮮度、アクションなどが考慮されます。

オンラインリコールは、ユーザーの関心タグに基づいてリバースリストからコンテンツをすばやく切り取り、大規模なコンテンツライブラリから信頼性の高い少量のコンテンツを効率的にフィルタリングできます。

コンテンツ分析

コンテンツ分析には、テキスト分析、画像分析、ビデオ分析が含まれます。 Toutiaoは当初情報に焦点を当てていましたが、今日は主にテキスト分析についてお話します。

推奨システムにおけるテキスト分析の非常に重要な役割は、ユーザーの興味のモデリングです。コンテンツとテキストのタグがないと、ユーザーの興味タグを取得することはできません。

たとえば、記事のタグが「インターネット」であることがわかっていて、ユーザーが「インターネット」タグ付きの記事を読んだ場合にのみ、そのユーザーが「インターネット」タグを持っていることがわかります。他のキーワードについても同様です。

一方、テキストコンテンツのタグは、機能の推奨に直接役立ちます。たとえば、Meizuをフォローしているユーザーには、ユーザータグが一致するMeizuのコンテンツを推奨できます。

推奨されたメインチャンネルが一定期間効果がなく、推奨が狭くなった場合、ユーザーは特定のチャンネルの推奨 (テクノロジー、スポーツ、エンターテイメント、軍事など) を読んでからメインフィードに戻ると、推奨効果が向上することがわかります。

モデル全体が接続されているため、サブチャネルの探索スペースが小さくなり、ユーザーのニーズを満たしやすくなります。単一のチャネルからのフィードバックだけでレコメンデーションの精度を向上させることは難しいため、サブチャネルで良い仕事をすることが重要です。そして、これには適切なコンテンツ分析も必要です。

上の写真はToutiaoの実際のテキストケースです。図からわかるように、この記事には分類、キーワード、トピック、エンティティ語などのテキスト機能があります。

もちろん、テキスト機能なしでは推奨システムが機能しないということではありません。推奨システムは Amazon で最初に使用され、ウォルマート時代にも使用されました。Netflix のビデオ推奨でも、直接的な協調フィルタリング推奨にテキスト機能は使用されていませんでした。

しかし、情報製品の場合、ほとんどの人は同じ日にコンテンツを消費します。テキスト機能がなければ、新しいコンテンツをコールドスタートすることは非常に困難であり、コラボレーション機能では記事のコールドスタートの問題を解決できません。

Toutiao の推奨システムによって抽出される主なテキスト特徴には、次のカテゴリが含まれます。 1 つ目は、記事にセマンティックタグを明示的にタグ付けするセマンティックタグ機能です。ラベルのこの部分は人間が定義する機能です。各ラベルには明確な意味があり、ラベルシステムは事前に定義されています。

さらに、暗黙的な意味的特徴、主にトピック特徴とキーワード特徴があります。トピック特徴は単語の確率分布の説明であり、明確な意味はありません。一方、キーワード特徴はいくつかの統一された特徴の説明に基づいており、明確なセットはありません。

さらに、テキストの類似性機能も非常に重要です。 Toutiao では、ユーザーから報告された最大の問題の 1 つは、なぜ繰り返しコンテンツが常に推奨されるのかということでした。この質問の難しいところは、繰り返しの定義が人によって異なることです。

たとえば、レアルマドリードとバルセロナに関するこの記事は、昨日も同様の内容を見たのに、今日もまたこの 2 つのチームについて語っているため、繰り返しになっていると考える人もいます。

しかし、熱狂的なサッカーファン、特にバルセロナファンとしては、すべてのレポートを読むのが待ちきれません。この問題を解決するには、類似記事の主題、テキスト、本文などのコンテンツを判断し、これらの特性に基づいてオンライン戦略を策定する必要があります。

同様に、コンテンツの場所と適時性を分析する時空間特性もあります。たとえば、武漢の交通規制を北京のユーザーに押し付けるのは意味がないかもしれない。

最後に、コンテンツが下品なもの、ポルノ的なもの、ソフトな記事やチキンスープであるかどうかを判断するために、品質関連の特徴も考慮する必要があります。

上の図は、Toutiao セマンティックタグの機能と使用シナリオを示しています。レベルや要件はそれぞれ異なります。

分類の目標はすべてを網羅することであり、すべてのコンテンツとすべてのビデオに分類が適用されることを期待しています。一方、エンティティシステムでは精度が求められ、同じ名前またはコンテンツがどの人物または物を指すのかを明確に区別できる必要がありますが、すべてを網羅する必要はありません。

概念システムは、より正確で抽象的な概念の意味を解決する役割を担います。これが当初の分類でした。実際には、分類と概念は技術的に互換性があることが判明したため、後に一連の技術アーキテクチャを使用してそれらを統合しました。

現時点では、暗黙的なセマンティック機能はすでに推奨事項の作成に非常に役立っていますが、セマンティックタグは継続的に注釈を付ける必要があります。新しい用語や概念が出現し続けるため、注釈も継続的に反復する必要があります。

それをうまく行うための難しさとリソース投資は、暗黙的な意味的特徴よりもはるかに大きいのに、なぜ意味的ラベルが必要なのでしょうか?

チャネルには明確に定義されたカテゴリとわかりやすいテキストラベルシステムが必要であるなど、いくつかの製品要件があります。セマンティックラベリングの有効性は、企業の NLP 技術レベルをチェックするための試金石となります。

Toutiao の推奨システムのオンライン分類では、典型的な階層型テキスト分類アルゴリズムを採用しています。

最上位はルートで、その下の分類の第1層はテクノロジー、スポーツ、金融、エンターテイメント、スポーツなどの主要なカテゴリです。

さらにサッカー、バスケットボール、卓球、テニス、陸上競技、水泳などに細分化されています。サッカーはさらに国際サッカーと中国サッカーに細分化されています。中国サッカーはさらに中国1部リーグ、中国スーパーリーグ、ナショナルチームなどに細分化されています。

単一の分類器と比較して、階層型テキスト分類アルゴリズムを使用すると、データの偏りの問題をより適切に解決できます。リコールを改善したい場合に備えて、フライワイヤーが接続されている例外がいくつかあります。

このアーキテクチャは普遍的ですが、問題の難易度に応じて、各メタ分類器は異種になる可能性があります。たとえば、分類 SVM の中には非常にうまく機能するものもあれば、CNN と組み合わせる必要があるもの、さらに処理するために RNN と組み合わせる必要があるものもあります。

上の図は、エンティティ単語認識アルゴリズムの例です。候補は、単語のセグメンテーション結果と品詞のタグ付けに基づいて選択されます。このプロセスでは、知識ベースに基づいていくつかのスプライシングを行う必要がある場合があります。一部のエンティティは複数の単語の組み合わせであり、どの単語を組み合わせるとエンティティの説明をマッピングできるかを判断する必要があります。

結果が複数のエンティティにマッピングされる場合は、単語ベクトル、トピック分布、さらには単語の頻度自体を通じてそれらの曖昧さを解消する必要があり、最終的に相関モデルが計算されます。

ユーザータグ

コンテンツ分析とユーザータグは、推奨システムの 2 つの基礎です。コンテンツ分析にはより多くの機械学習が関与し、それに比べてユーザーラベルエンジニアリングはより困難です。

Toutiao の一般的なユーザータグには、ユーザーが興味を持っているカテゴリやトピック、キーワード、ソース、興味に基づくユーザークラスター、さまざまな垂直的な興味機能 (車のモデル、スポーツチーム、株式など) が含まれます。性別、年齢、場所などの情報もあります。

性別情報は、ユーザーのサードパーティのソーシャルアカウントを通じてログインすることで取得されます。年齢情報は通常、モデルによって予測され、機械モデルや読書時間の分布などを通じて推定されます。

永続的な場所は、ユーザーの許可されたアクセス場所情報から取得され、永続的なポイントは、位置情報に基づく従来のクラスタリング方法を通じて取得されます。

恒久的な場所と他の情報を組み合わせることで、ユーザーの勤務場所、出張場所、旅行先を推測することができます。これらのユーザータグは、推奨事項に非常に役立ちます。

もちろん、最も単純なユーザータグは、閲覧されたコンテンツタグです。ただし、ここでは主に次のようなデータ処理戦略が関係しています。

ノイズを除去します。滞在時間が短いクリックを通じて、クリックベイトのタイトルを除外します。
ホットスポットを罰する。一部の人気記事（少し前の PG One に関するニュースなど）に対するユーザーのアクションは降格されます。理論的には、コンテンツが広く配布されるほど、その信頼性は低くなります。
時間の経過。ユーザーの興味は変化するため、戦略は新しいユーザー行動に重点を置くようになります。したがって、ユーザーアクションが増加すると、古い機能の重みは時間の経過とともに減少し、新しいアクションによって寄与される機能の重みは大きくなります。
罰は現れる。ユーザーに推奨された記事がクリックされない場合、関連する機能（カテゴリ、キーワード、ソース）の重みが減点されます。

もちろん、同時に、全体的なコンテキスト、関連するコンテンツのプッシュがさらにあるかどうか、関連するクローズや低評価のシグナルなどについても考慮する必要があります。

ユーザータグのマイニングは一般的には単純ですが、主な課題は先ほど述べたエンジニアリング上の課題です。 Toutiao ユーザータグの最初のバージョンは、比較的シンプルなプロセスを備えたバッチコンピューティングフレームワークでした。過去 2 か月間の昨日の毎日のアクティブユーザーのアクションデータを毎日抽出し、Hadoop クラスターで結果をバッチで計算していました。

しかし、問題は、ユーザーの急速な増加により、関心モデルやその他のバッチ処理タスクの種類が増加し、必要な計算量が大きくなりすぎることです。

2014 年には、何百万ものユーザータグ更新をバッチ処理する Hadoop タスクが、同日中に完了するのはほとんど不可能でした。

クラスターコンピューティングリソースの不足は他の作業に簡単に影響を及ぼし、分散ストレージシステムへの集中書き込みの圧力が高まり始め、ユーザーの関心タグの更新の遅延がますます大きくなります。

これらの課題に対応するため、Toutiao は 2014 年末にユーザータグ Storm クラスターストリーミングコンピューティングシステムを立ち上げました。

ストリーミングモードに変更すると、ユーザーアクションの更新がある限りラベルが更新されます。CPU コストは比較的小さいため、CPU 時間を 80% 節約でき、コンピューティングリソースのオーバーヘッドを大幅に削減できます。

同時に、毎日数千万人のユーザーの興味モデルの更新をサポートするのに必要なマシンは数十台のみで、機能の更新速度は非常に速く、基本的にほぼリアルタイムを実現します。このシステムはオンラインになって以来使用されています。

もちろん、すべてのユーザータグにストリーミングシステムが必要なわけではないこともわかりました。ユーザーの性別、年齢、居住地などの情報は、リアルタイムで再計算する必要はなく、毎日更新することができます。

評価と分析

上記では、推奨システムの全体的なアーキテクチャを紹介しました。では、推奨の有効性をどのように評価するのでしょうか? 「何かを測定できないなら、最適化することはできない」という、とても賢明な格言があります。推奨システムでも同様です。

実際、推奨効果には多くの要因が影響します。たとえば、候補セットの変更、リコールモジュールの改善または追加、推奨機能の追加、モデルアーキテクチャの改善、アルゴリズムパラメータの最適化などです。

評価の重要性は、多くの最適化が最終的にはマイナスの効果をもたらす可能性があり、最適化を開始した後も必ずしもその効果が改善されるわけではないという事実にあります。

包括的な評価および推奨システムには、完全な評価システム、強力な実験プラットフォーム、使いやすい実証分析ツールが必要です。

いわゆる「完全システム」というのは、一つの指標で測るのではなく、クリック率や滞在時間などだけを見るのではなく、総合的に評価する必要があるということです。

ここ数年、私たちはできるだけ多くの指標を組み合わせて独自の評価指標を作ろうとしていますが、まだ模索中です。現時点では、各事業の経験豊富な学生で構成された検討委員会による綿密な議論を経て、オンラインでの立ち上げを決定する必要があります。

多くの企業がアルゴリズム開発で成果を上げられないのは、エンジニアの能力が十分でないからではなく、データ指標の信頼性をインテリジェントに分析できる強力な実験プラットフォームと便利な実験分析ツールが必要なためです。

優れた評価システムを確立するには、いくつかの原則に従う必要があります。その最初の原則は、短期的指標と長期的指標の両方を考慮することです。

以前の会社で電子商取引を担当していたとき、多くの戦略調整は短期的にはユーザーにとって新鮮に見えても、実際には長期的には何の役にも立たないことに気付きました。

第二に、ユーザー指標と環境指標の両方を考慮する必要があります。コンテンツ配信・制作プラットフォームとして、Toutiaoはコンテンツクリエイターに価値を提供し、彼らがより尊厳を持って創作できるようにするだけでなく、ユーザーを満足させる義務も負っている。この2つはバランスが取れていなければならない。広告主の利益も考慮する必要があります。これは、複数の当事者による交渉とバランス調整のプロセスです。

さらに、相乗効果の影響にも注意を払う必要があります。実験では厳密なトラフィック分離を実現することは難しく、外部の影響に注意を払う必要があります。

強力な実験プラットフォームの非常に直接的な利点は、多くの実験が同時にオンラインになっている場合、プラットフォームは手動での通信を必要とせずにトラフィックを自動的に割り当てることができ、実験終了後すぐにトラフィックをリサイクルできるため、管理効率が向上することです。

これにより、企業は分析コストを削減し、アルゴリズムの反復効果を加速し、システム全体のアルゴリズム最適化作業を迅速に進めることができます。

これがToutiaoのA/Bテスト実験システムの基本原理です。まず、ユーザーをオフラインでバケット化し、次にオンラインで実験トラフィックを割り当て、バケット内のユーザーにラベルを付けて、実験グループに割り当てます。

たとえば、トラフィック 10% で実験を開始し、2 つの実験グループをそれぞれ 5% ずつに分けます。1 つの 5% はベースラインで、オンライン市場と同じ戦略を採用し、もう 1 つは新しい戦略を採用します。

実験中、ユーザーのアクションは基本的にほぼリアルタイムで収集され、1 時間ごとに確認できます。ただし、時間ごとのデータは変動するため、通常は日単位で確認します。アクションが収集されると、ログに処理され、統計が分散され、データベースに書き込まれるため、非常に便利です。

このシステムでは、エンジニアはトラフィック要件、実験時間を設定し、特別なフィルタリング条件を定義し、実験グループ ID をカスタマイズするだけで済みます。

システムは、実験データの比較、実験データの信頼性、実験結論の要約、実験の最適化の提案を自動的に生成できます。

もちろん、実験プラットフォームだけでは十分ではありません。オンライン実験プラットフォームでは、データ指標の変化を通じてのみユーザーエクスペリエンスの変化を推測できますが、データ指標とユーザーエクスペリエンスには違いがあり、多くの指標は完全に定量化できません。多くの改善には依然として手動による分析が必要であり、大規模な改善には手動による評価と二次的な確認が必要です。

コンテンツセキュリティ

最後に、Toutiao のコンテンツセキュリティに関する取り組みをいくつか紹介したいと思います。今日頭条は現在、中国最大のコンテンツ制作・配信プラットフォームであり、社会的責任と業界リーダーとしての責任にますます注意を払わなければなりません。推奨事項の 1% に問題がある場合、大きな影響が出る可能性があります。

そのため、Toutiao は創業以来、コンテンツセキュリティを会社の最優先事項に据えてきました。設立当初から、コンテンツのセキュリティを担当する専任のレビューチームがすでに存在していました。

当時、クライアント、バックエンド、アルゴリズムすべてに携わっていたのは40人未満でした。これは、Toutiaoがコンテンツレビューを非常に重視していることを示しています。

現在、Toutiao の内容は主に 2 つの部分から構成されています。

成熟したコンテンツ制作機能を備えた PGC プラットフォーム。
質問と回答、ユーザーコメント、マイクロヘッドラインなどの UGC ユーザーコンテンツ。

これら 2 つの部分は、統一されたレビューメカニズムを経る必要があります。 PGC含有量が比較的少ない場合は、直接リスクレビューを実施し、問題がなければ大規模に推奨いたします。

UGC コンテンツはリスクモデルを通じてフィルタリングする必要があり、問題のあるコンテンツは二次リスクレビューの対象となります。審査に合格すると、そのコンテンツは本当にお勧めになります。

現時点では、一定数以上のコメントや否定的なフィードバックの報告を受け取った場合、レビュー段階に戻され、問題がある場合は直ちに削除されます。

全体的なメカニズムは比較的健全です。業界のリーダーとして、Toutiao は常にコンテンツセキュリティの面で最高水準を維持してきました。

共有コンテンツ識別技術には、主にポルノ識別モデル、下品モデル、虐待モデルが含まれます。 Toutiao の下品さモデルは、ディープラーニングアルゴリズムによってトレーニングされています。サンプルライブラリは非常に大きく、画像とテキストの両方が同時に分析されます。

モデルのこの部分は再現率に重点を置いており、精度が犠牲になることもあります。言葉による虐待モデルのサンプルライブラリも 100 万を超え、再現率は 95% 以上、精度率は 80% 以上です。ユーザーが頻繁に不快なコメントや不適切なコメントを投稿した場合、ペナルティを課す仕組みがあります。

一般的な低品質識別には、フェイクニュース、ブラック記事、タイトルと本文の不一致、クリックベイト、低品質コンテンツなど、さまざまな状況が関係しています。コンテンツのこの部分は機械にとって理解するのが非常に難しく、他のサンプル情報との比較など、多くのフィードバック情報が必要です。

現在、低品質モデルの精度と再現率は特に高くなく、しきい値を上げるには手動レビューが必要です。最終的なリコール率は現在 95% に達していますが、この分野ではまだやるべき作業が数多く残っています。

Toutiaoの人工知能研究室のLi Hang教授は現在、ミシガン大学と共同で噂識別プラットフォームの構築に向けた研究プロジェクトに取り組んでいる。

上記は、Toutiao の推奨システムの原則の共有です。今後も、作業の改善に役立つ提案をいただければ幸いです。

<<: スタンフォード大学のAIアルゴリズムは死を予測できる！これはホスピスにとって良いことかもしれない…

>>: Google の大きな動き!新しくリリースされた Cloud AutoML により、コードを書かずに AI トレーニングを完全自動化

ブログ

上級アーキテクトが初めて秘密を明かす：Toutiao の推奨アルゴリズムの原理を 3 分で学ぶ

気候変動と闘うためのAIの8つのガイドライン

注目に値する5つの高度なコード補完サービス

中国人民大学高陵人工知能学院のネイチャーサブジャーナル：マルチモーダル基本モデルを使用して汎用人工知能への移行を試みている

バイオメディカルホログラフィックイメージング用の RNN が 50 倍高速化

推薦する

GPT-4 は愚かになる!新しい質問に答えるパフォーマンスが低すぎます。レベルを維持したい場合は、新しいモデルをトレーニングし続けるしかありません。

GoogleのAutoML人工知能システムは、人間よりも優れた機械学習コードを作成できるようになりました

製造、小売、医療の事例から：エッジコンピューティングと人工知能がどのように収益向上に役立つか

顔認識の3つの主要技術と4つの主要機能

プログラマーの芸術: ソートアルゴリズムのダンス

Linux の割り込み処理メカニズムを使用してシステムパフォーマンスを向上させる

スマート音声アシスタントの未来

カリフォルニア工科大学がドローンに足を与える：歩行と飛行、スケートボード、綱渡りをシームレスに切り替える

機械はどのように学習するのでしょうか?人工知能の「双方向戦闘」を詳しく解説

アルゴリズムの品質を評価するにはどうすればよいでしょうか?