あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

あなたの「読書」は他の人に読まれている。清華大学の研究者はWeChatの「Look」からこれらのパターンを発見した。

WeChatの「Take a Look」アプリの最もアクティブなユーザーは実は私たちの両親であり、最も「静か」なのは若者たちです...清華大学のTang Jie氏らによる最近の研究では、WeChatの「Take a Look」アプリのデータを使用して、記事を読むためにクリックしたり、「読む」をクリックしたりするユーザーの行動パターンを分析し、人口統計、2元および3元の関連、自己中心的なネットワーク構造など、さまざまな側面から分析を行いました。

この研究では、他の方法と比較して予測精度が向上した予測モデルも提案されました。現在、この論文はIEEE Transactions on Knowledge and Data Engineering (TKDE)誌に掲載されています。

  • 論文リンク: https://arxiv.org/pdf/2103.02930.pdf
  • GitHub リンク: https://github.com/zfjsail/wechat-wow-analysis

WeChatの記事にある「読む」ボタンは皆さんもよくご存知だと思います。 WeChat ユーザーは、ディスカバリー ページで [見てみる] をクリックすると、友人が [読んでいる] をクリックした記事を見ることができます。また、これらの記事をクリックして読んだり、[読んでいる] をクリックしたりすることもできます。

WeChatの「Take a Look」ページの例。 (「わぁボタン」は「視聴」ボタンです。)

では、これらの記事を読むためにクリックしたり、「読む」をクリックしたりするユーザーの行動に影響を与える要因は何でしょうか?

「Look」ユーザーの行動に影響を与える要因は何ですか?

この研究は3つのレベルで分析されました。

  • ユーザーの人口統計情報の観点から見ると、性別や年齢層の異なるユーザーの「視聴」やクリック行動は大きく異なり、クロス属性要因を考慮すると状況はさらに複雑になります。
  • バイナリ アソシエーションの観点では、アクティブな友人が構造的ホールとオピニオン リーダーである場合、ユーザーの動作は非常に異なる可能性があります。
  • エゴセントリック ネットワークの場合、記事を「読む」確率とクリックして読む確率は、ユーザーのアクティブな友人で構成される接続コンポーネントの数と強く相関しています。

具体的な分析結果は以下の通りです。

ユーザーの人口統計情報

表 1、図 2、図 3 は、さまざまな性別と年齢のユーザーが「読む」をクリックする確率と、「見てみる」機能で記事を読むためにクリックする確率を示しています。このことから、次のことがわかります。

  • 男性がクリックする確率は女性よりも大幅に高く、女性が「読む」をクリックする確率は男性よりもわずかに高い(表1参照)。
  • 20 代と 30 代以上の若者はオンライン ソーシャル サークルの中心ですが、彼らが「読む」をクリックしたり、記事を読むためにクリックしたりする確率は、すべての年齢層の中で最も低いです (図 2 を参照)。
  • 性別と年齢の属性を同時に考慮すると、状況は異なります。20 歳未満の人では、男性の方が女性よりもアクティブですが、40 歳以上の人では、女性の「読む」をクリックする割合が高く、60 歳以上の人では、女性の「記事を読む」をクリックする割合が高くなります (図 3 を参照)。

二項関係と三項関係

便宜上、この研究では、二項関係ではユーザーと 1 人のアクティブな友人とのやり取りのみを考慮し、三項関係ではユーザーと 2 人のアクティブな友人とのやり取りのみを考慮します。研究者らは、人口統計学的属性と社会的役割という2つの側面から分析を行った。

1. 二項関係と人口統計的属性

以下の表 2 は、ユーザーの性別と友人の性別がユーザーのアクティビティ率に与える影響を示しています。このことから、クリック行動に関しては、2 人が同じ性別の場合、ユーザーのクリック確率が高くなることがわかります。ただし、「視聴」行動に関しては、友人が女性の場合、ユーザーが「視聴」をクリックする確率は高くなります。

年齢の観点から見ると、下の図 4 は、ユーザーの年齢と友人の年齢がユーザーの「視聴」行動の確率に与える影響を示しています。このことから、ユーザーが若い場合 (40 歳未満)、同世代のユーザーよりも年上の友人の影響を受けやすく、年上のユーザーは同世代のユーザーから影響を受けやすいことがわかります。

2. 二元的関係と社会的役割

以下の表 4 は、ユーザーとその友人がオピニオン リーダー (OL) と一般人 (OU) という異なる社会的役割を持っている場合に、ユーザーのアクティビティ レートに与える影響を示しています。このことから、アクティブな友人がオピニオンリーダーでない場合、ユーザーは「読んでいる」をクリックして記事を読む可能性が高くなることがわかります。

以下の表 5 は、構造的ホール (SH) と一般人 (OU) という 2 つの社会的役割がユーザーのアクティビティ率に与える影響を示しています。 (「構造的穴」とは、ソーシャルネットワークのギャップを指します。つまり、ソーシャルネットワーク内の1人または数人の個人は、一部の個人とは直接接触していますが、他の個人とは直接接触していません。つまり、直接的な関係がないか、関係が不連続です。ネットワーク全体の観点から見ると、ネットワーク構造に穴があるように見えます。)

友達が構造上の穴になっている場合、一般ユーザーの活動率が高くなることがわかります。構造的ホールを持つユーザーの場合、友人に構造的ホールがない場合にクリック確率が高くなりますが、その差は有意ではありません。

3. 三元関係と人口統計的属性

下の図 5 は、ユーザーの性別と友人の性別がユーザーのアクティビティ率に与える影響を示しています。 2 人の友人の性別がユーザーの性別と同じ場合、ユーザーのアクティビティ率が最も高くなることがわかります。これは強い同質性を示しています。

下の図 6 は、ユーザー年齢と友人年齢がユーザーアクティビティ率に与える影響を示しています。このことから、友人の 1 人がユーザーと同じ年齢で、もう 1 人が若い場合、ユーザーのアクティビティ率が高く、年上のユーザーは年下のユーザーに多くの注意を払うことがわかります。

自己中心的ネットワークの特性

さらに、研究者らは、ユーザーの活動とエゴセントリック ネットワークの属性との関係も調査し、ユーザーのオンライン行動 (クリックして読む、および「読む」) は友人の輪 (エゴセントリック ネットワーク内の友人) に大きく影響されることを発見しました。エゴセントリック ネットワークとは、ユーザーのアクティブな友人の誘導されたサブグラフを指します。

この研究では、エゴセントリックネットワーク内の友人の数、接続されたブランチの数(#CC)、およびクリーンなエゴセントリックネットワーク(kコアサブグラフ)内の#CCという3つの側面からエゴセントリックネットワークの特性を分析します。

下の図 8 は、アクティブな友達の数を増やすことがユーザーのアクティビティ率に与える影響を示しています。図からわかるように、クリックと「閲覧」の行動の傾向はまったく異なります。

これらの分析を通じて、研究者は次のことを発見しました。

  • 男性は記事を読むためにクリックする傾向が高く、女性は「読む」をクリックする傾向が高い。若者は「読む」に最も積極的ではない。
  • 二項関係または三項関係の観点では、ユーザーとその友人(性別など)の間には興味深い「類は友を呼ぶ」現象が見られますが、アクティブな友人が複数いる場合は、属性の多様性(地域など)がユーザーのアクティビティと正の相関関係にあります。
  • エゴセントリックネットワークトポロジーによれば、「見る」行動とクリック行動のパターンは大きく異なります。たとえば、アクティブな友達の数が固定されている場合、ユーザーが「視聴中」をクリックする確率は、アクティブな友達によって形成される接続ブランチと負の相関関係にありますが、クリック動作は逆になります。このパターンは、自己中心的なネットワークが浄化されたときにさらに顕著になりました。

予測モデル

いくつかのパターンや規則性を発見しましたが、それらを使用してユーザーのオンライン行動を予測することはできるでしょうか?この研究では、予測モデル DiffuseGNN が作成されました。

上図に示すように、DiffuseGNN モデルは、前処理エゴセントリック ネットワーク、入力層、特徴スムージング層、階層グラフ表現学習、出力層の 5 つのステップで構成されています。

このモデルのコアコンポーネントと基本的な考え方は次のとおりです。

  1. 入力ユーザー機能については、研究者はユーザーの人口統計情報(性別、年齢など)や事前トレーニング済みのユーザー埋め込みなどのさまざまなユーザー機能を考慮し、機能の相互作用をモデル化しようとしました。
  2. 次に、学習可能な変調スペクトル領域で初期特徴を伝播することによってユーザー埋め込みを学習します。これにより、学習したユーザー埋め込みは、エゴセントリックネットワークで有用な情報をキャプチャし、ノイズを除去できるようになります。
  3. 次に、研究者らは学習した中間表現を階層グラフ表現モデルにさらに入力し、ノードを反復的にクラスタリングすることでサブグラフの埋め込みを学習します。
  4. この研究では、ユーザー特性と友人特性間の相互作用をモデル化するために、新しい注意モデルも使用しています。

実験

研究者らは、収集したWeChatの「Look」データと公開されているWeiboデータセットでモデルのユーザー行動に対する予測効果をテストし、比較のために1)従来の分類器:LRとRF、2)機能の相互作用をモデル化するディープラーニング手法:xDeepFM、3)エゴセントリックネットワークに基づくSOTAユーザー行動予測手法:DeepInfとWangら、4)階層的グラフ表現学習手法:SAGPool、ASAP、StructPoolなど、複数の手法を選択しました。このうち、3番目と4番目のカテゴリはGNNベースの手法です。

以下の表 7 は実験結果を示しており、DiffuseGNN モデルのパフォーマンスがベースライン メソッドを一貫して上回っていることがわかります。

さらに、この研究では、さまざまなモデルコンポーネントがユーザー行動の予測に与える影響についても調査しました。表 7 の下部にあるデータを参照してください。このことから、事前トレーニング済みの埋め込みと特徴の平滑化のステップを削除すると、パフォーマンスが大幅に低下することがわかります。2 次特徴を追加すると、WeChat データに基づくユーザー行動予測にわずかに役立ち、Weibo データセットに基づくユーザー行動予測にはより良い効果があります。モデルは、人工的に作成されたユーザー特徴を使用せずに優れたパフォーマンスも達成します。

<<:  AI イニシアチブを成功させるために必要な 10 のこと

>>:  人間の介入によってモデルのパフォーマンスをどのように向上できるでしょうか?この記事を読んでみてください

ブログ    
ブログ    
ブログ    

推薦する

機械学習において、トレーニングおよび検証メトリック グラフから何がわかるでしょうか?

この記事では、トレーニングと検証の考えられる状況をまとめ、これらのチャートがどのような情報を提供でき...

サイバー防御にAIを活用する

サイバー防御能力は、より高度なサイバー攻撃能力の発展に追いつくのに苦労している。人工知能、特に最先端...

...

人工知能は「新たな生産要素」である

[[186158]]何人かの経済学者に話を聞いてみれば、彼らはほぼ間違いなく、生産性の伸びの弱さが現...

製造業における人工知能: 産業用 AI のユースケース

AspenTech 2020 Industrial AI Studyによると、大手工業企業の83%...

...

...

中科世宇の王金橋氏:5Gは新しい警察アプリケーションを強化し、交通管理の「細かく科学的な」管理を改善します

最近、「つながりとインテリジェンス、より安全な世界の構築」をテーマにした2021年世界セキュリティ博...

...

数学者を助けたいなら、人工知能の意味は何でしょうか?

AIに対して幻想を抱いている人もいれば、偏見を持っている人もいます。 AIはツールとコンピューティ...

3省庁:AI分野の大学院生の育成を加速し、世界の科学技術の最先端を掌握

教育部のウェブサイトによると、教育部、国家発展改革委員会、財政部はこのほど、「『双一流』建設大学にお...

機械学習が医療に革命を起こす

その中で、ヘルスケア業界は強力なスポンサーであり、新しいテクノロジーを積極的に導入してきました。人工...

マルウェアの検出と分類にディープラーニングが広く利用されている理由

人工知能 (AI) は進化を続けており、過去 10 年間で驚異的な進歩を遂げてきました。ディープラー...

2018 年のビッグデータのトレンド: 人工知能... データ分析には視覚化モデルが含まれます...

導入ノートパソコン、スマートフォン、センサーはすべて、モノのインターネット向けに大量のデータを生成し...

アイウェア市場は1000億円規模を超えるか? 3Dプリントで「顔のカスタマイズ」を実現

私たちの日常生活には、近視用メガネ、サングラス、サングラス、遠視用メガネ、ゴーグルなど、視力矯正、視...