皇帝の側室選定と推薦アルゴリズムの仕組み

皇帝の側室選定と推薦アルゴリズムの仕組み

[[393467]]

この記事はWeChatの公開アカウント「Shu Shixiong」から転載したもので、著者はShu Shixiongです。この記事を転載する場合は、Shu Shixiongの公式アカウントまでご連絡ください。

近年、ビッグデータ、人工知能、機械学習、データマイニングなどの概念の台頭により、すべてのデータアナリストは多かれ少なかれ推奨アルゴリズムに関する分析に接するようになりました。アルゴリズム分析の前提条件は、現在の「推奨アルゴリズム」の基本構造を理解し、これらの一般的なビジネス知識を習得することです。特定のアルゴリズムの実装プロセスを理解していなくても、アルゴリズムを効果的に分析できます。現在の推奨アルゴリズムは、主にリコール、フィルタリング、(大まかなソート)、および細かいソートといういくつかのコアステップに分かれています。これらは一体何を意味しているのでしょうか? 皇帝が側室を選ぶ方法を理解すれば、上記のプロセスも理解できるでしょう。では、これ以上前置きせずに、この 2 つの違いを見てみましょう。

リコール=オーディション

リコールは、現在のリソース プールから条件を満たすリソースを丸で囲みます。皇帝が側室を選ぶと世間に発表すると、各省は13歳から16歳までの優秀な少女を一般から集め始めるのと同じだ。全国規模の選挙だったため、審査員の目や指標に影響され、この時に選ばれた人々は肌や髪の色がさまざまで、皆中国語で「私を選んで、私を選んで」と言うだろう。

総選挙以外にも、首相の姪、隣国が選んだ王女、あるいは皇帝自身が大明湖の夏老人の次女に惚れ込んだなど、特別なルートもある。これらの特別なチャネルは、多方向想起として理解できます。つまり、オーディションのこの段階では、美に少しでも関わりがあれば、眉毛と髭がある人でも合格できるということです。

この原理は、普段ニュースを見るときと同じです。思い出す方法は、ベクトル想起、協調フィルタリング、その他多方向想起など、多岐にわたります。フォローしているブロガーが投稿したコンテンツ、人気が高まっているコンテンツ、ホットな話題やその周辺領域など、豊富なコンテンツが含まれています。コンテンツとしては、エンターテイメント、映画やテレビ、政治などが含まれます。つまり、最終的にユーザーに提示されるコンテンツが何であれ、それは「完全性」を保証する上で「正確」でなければなりません。リコールのステップでは、「完全性」の問題に重点が置かれます。

フィルター = チェック

オーディションで選ばれた美女たちが再選考段階に入った。こんなに大勢の人たちを無事に採用するのは不可能で、それでも人数が多すぎた。そのため、宮殿に入る前に、選抜を担当する宦官は、背が高すぎる人、背が低すぎる人、太りすぎの人、痩せすぎの人、十分な教育を受けていない人、性格の悪い人、投機家である人など、別の波の人々を排除する必要がありました。この操作により、質の悪い参加者が排除されただけでなく、次のリンクのスタッフの作業圧力も軽減されました。

ニュースの推奨を例にとると、リコールされたコンテンツのうち、反動的なホットトピック、非常に低いいいね率、古いコンテンツが最初に排除され、質の悪いリコールコンテンツのかなりの部分が除去され、より重要なコンテンツが残ります。

大まかな列 = 3 辺

宮殿に入って皇帝に会う前のこの手順は、実際には必要ではありません。主に宮殿の宦官の対応能力に依存します。再選後に3,000人が残り、宮殿の宦官が5,000人を処理できる場合、3回の面接は必要なく、直接入ることができます。しかし、処理能力が1,000人しかない場合、宮殿に入る前に一群の人をふるいにかけ、宮殿内で選抜を担当する宦官たちの仕事の負担を軽減しなければなりません。このとき、美女たちの家柄、性格、容姿、才能、知識に基づいて総合的な点数が付けられ、比較的質の悪い一群がふるいにかけられて優秀さが達成されます。

推奨アルゴリズムに関して言えば、ここでの処理能力は一般的にサーバーの負荷能力を指します。データが少ない小規模なアプリでは、リコール段階でリソースが不足する可能性があり、フィルタリング後にリソースが枯渇します。最終的に、ユーザーに表示する必要があるデータの量は多くありません。このとき、細かい並べ替えと粗い並べ替えを同時に行うことができます。ただし、大規模なアプリの場合、フィルタリング後もデータ量が多くなります。このとき、サーバーの負荷を軽減するために、データの波をフィルタリングし続けるために粗い並べ替えが必要です。宦官が美女を格付けするのと同じように、大まかなランキングもユーザーの特徴に基づいています。現在使用されているさまざまな採点アルゴリズムは、実際には選考プロセス中に審査員が議論したいくつかの異なる採点ルールに相当します。

正確なスケジュール設定 = 作業スケジュール

3回の面接を経て、残った人々がようやく宮殿に入ることができる。最終的に皇帝の側室リストに載る人物は、再度評価される必要がある。前回の選別が何らかの普遍的な特徴に基づいていたとすれば、この細かい選別のステップでは、これまでの静的な特徴に加えて、いくつかの動的な特徴と皇帝自身の好みが加えられることになる。

たとえば、美女たちの行動(容姿、マナー、いびきをかいているか、寝言を言っているか、体臭があるか、さらには「胸を探り、脇の下を嗅ぎ、肌の質感に触れ、貞操を確かめよ」という言い伝え)の定期的な評価と観察、近年の皇帝の行動の好み(丸顔か円錐顔か、貴族の淑女か平凡な家庭の美しい娘か、文学青年かおどけた青年か)に関する統計など。これらの特徴は総合的に採点され、最終的に皇帝の側室リストに掲載される 50 人が選ばれます。

これは、上記の機能と、コンテンツのいいね数、コメント率、レポート数、レポート率、現在のユーザーの好み(政治、テクノロジー、エンターテイメントのどれを好むか)を組み合わせてニュースリストに総合的なスコアを作成し、現在のユーザーに最も適したコンテンツを並べ替えて表示することと同じです。

上記は、アプリを閲覧するときにコンテンツを表示する基盤となる推奨アルゴリズムのプロセスです。これを読んだ後、あなたは皇帝になったような気分になりますか?上記の手順を理解すれば、アルゴリズムの具体的な構築と実装のプロセスを理解していなくても、上記の 4 つのプロセスからいくつかの分析のアイデアを得ることができます。たとえば、ユーザーのクリック率が低いのは、リコールが多すぎるのにフィルタリング機能が不十分で、質の低いコンテンツが精製ランキングに入ってしまうか、精製ランキング プロセスでユーザー機能が少なすぎることが原因です。

話題外

新規ユーザーには行動がないため、その嗜好を判断することは不可能です。これは、推奨エンジンのコールドスタートに相当します。この時点では、推奨コンテンツは比較的乱雑です。ゆっくりと、ユーザーの行動が蓄積されるにつれて、アルゴリズムはユーザーの嗜好を学習し、推奨コンテンツは特定の領域にますます集中するようになります。

Tik Tok と同じように、最初に登録したときは露出度はほぼ同じかもしれませんが、1 年後には違いがより顕著になる可能性があります。これを行う利点は、ユーザーが満足し、推奨コンテンツがより正確になり、ユーザーの維持率が向上することです。欠点は、ユーザーの視野が制限され、各ユーザーが自分の枠内に閉じ込められることです。これは良いアイデアだと思いますか?

<<:  必要なのはこれら3つの機械学習ツールだけです

>>:  ドイツメディア:EUは人工知能の乱用を制限する法律制定を計画

ブログ    

推薦する

AIは急速に変化しています。コンピュータービジョンの未来はどこにあるのでしょうか?

著者: 張傑[51CTO.com からのオリジナル記事]コンピューター ビジョン (CV) は、人工...

機械学習におけるデータ不均衡の問題を解決する方法

[[186778]]近年、機械学習やデータマイニングは非常に人気があり、徐々に世界に実用的な価値をも...

心理意味論の観点から見た顔認識

人々は日常生活の中で、見知らぬ人の顔だけでなく、身近な親戚、友人、同僚、有名人の顔など、さまざまな顔...

機械学習:教師あり学習と教師なし学習の違いは何ですか?

機械学習は、例と経験を通じてコン​​ピューターにタスクの実行を教える人工知能のサブセットであり、研究...

ついにビッグデータ、機械学習、データサイエンスをわかりやすく説明する人が出てきた

データの爆発的な増加とその利用可能性は、人工知能 (AI) の発展を促進しました。人工ニューラル ネ...

信頼できるAIの基礎は、適切なタイミングで適切なデータを得ることです

私たちは人工知能の存在に慣れ始めており、生成型人工知能(GenAI)の普及により、人工知能が世界に与...

「質問の海」戦略を取り除き、モデルに人間のように考えることを学習させる

[[395305]]最近、Ant Security Tianzhu Labのセキュリティ専門家である...

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向け...

機械学習を学ぶには? Alibaba のプログラマーが、わずか 7 つのステップで Python 機械学習を習得できるようお手伝いします。

概要: 現在、インターネット上の Python 機械学習リソースは非常に複雑で、初心者にとっては混乱...

構造とアルゴリズム: バイナリツリーとマルチツリー

1. ツリー構造1. 配列とリンクリスト配列構造配列ストレージは、要素に添字でアクセスするため、クエ...

RAGから富へ:人工知能の幻想を払拭する

検索拡張生成は、AI モデルがデータを改善し、幻覚を軽減できるようにする最も有望な技術の 1 つと考...

人工知能 (AI) の 19 の一般的な応用分野、あなたはどれくらい知っていますか?

01 自然言語生成自然言語生成は、顧客サービス、レポート生成、市場概要などで使用すべくデータをテキ...

国宝の旅:人工知能技術が文化遺産の病気を防ぐ方法

一日で世界三大博物館を訪れ、数千年前の国宝を自分の手で触り、さらには1300年前の繁栄した唐王朝にタ...

IBM、生成AIの基礎モデルを発表

IBM Granite ファミリーの基礎モデルは、生成 AI を自然言語およびコーディング タスクに...

多様性がAI戦略の成功の鍵となる理由

機械学習と人工知能に関しては、スキャンダルが後を絶ちません。過去数ヶ月、マイクロソフトのジャーナリス...