Big Vsが推奨するAI論文の引用数は倍増するでしょうか?過去5年間の2人のTwitterブロガーのツイートの影響が明らかに

Big Vsが推奨するAI論文の引用数は倍増するでしょうか?過去5年間の2人のTwitterブロガーのツイートの影響が明らかに

X プラットフォーム (Twitter) で AI 論文をよく閲覧する研究者は、AK (@_akhaliq) と Aran Komatsuzaki (@arankomatsuzaki) という 2 人のブロガーをよく知っているはずです。誰もが集中して読むことができるように、毎日いくつかの論文を選んで展示しています。データによると、AKはXプラットフォーム上で約28万人のフォロワーを抱えており、Aran Komatsuzakiは8万人を超えています。

一般的に言えば、この 2 人のブロガーが推奨する論文は比較的品質が保証されており、今後研究者からさらに注目されるでしょう。しかし、両者の影響力がどれほど大きいのか、また、推奨論文と非推奨論文の間にその後の影響に差があるのか​​どうかについては、これまで判断が難しいとされてきました。

これらの問題を研究するために、カリフォルニア大学サンタバーバラ校の数人の研究者が特別に論文を執筆しました。結果によると、2 人のブロガーが推奨した論文は、推奨されなかった論文よりも 2 ~ 3 倍多く引用されています。


  • 論文タイトル: ツイートから引用へ: ソーシャルメディアの影響力による AI 研究の可視性への影響の解明
  • 論文リンク: https://arxiv.org/pdf/2401.13782.pdf

具体的には、8,000 件を超える論文の包括的なデータセットをまとめました。論文は、2018 年 12 月から 2023 年 10 月までの両ブロガーのツイートをカバーしており、出版年、出版場所、および概要トピックに基づいて 1:1 に一致するコントロール グループが付属しています。分析結果によると、2人が推薦した論文の引用数は大幅に増加し、引用数の中央値は対照群の2~3倍となった。このような結果はコミュニティ内で懸念を引き起こしており、これは学術界のTikTok化を表していると考える人もいる。

しかし、このデータの因果関係の論理は逆である可能性があると疑う人も多くいます。なぜなら、より質の高い論文は、この 2 人のブロガーによって推奨される可能性が高く、その後の引用も自然と多くなるからです。

この点に関して、この論文は実際に解決策を示しています。彼らは、論文の品質の指標として出版の詳細とテキストの埋め込みを使用し、正確なマッチングによってコントロールサンプルを選択しました。著者らは、会議レビュースコアの分布の類似性からもわかるように、自分たちのアプローチが論文の品質をうまく制御できることを検証したと述べている。

6 つの主要な機械学習カンファレンスから、2 人のブロガーが推奨した論文と推奨されなかった論文の平均 OpenReview スコア。図の結果は、2 つの論文グループの品質がほぼ同等であることを示しています。

この結果について、数学の分野でも同様の現象が起きているとして、より楽観的な見方をする人もいます。例えば、テレンス・タオなどの数学者は、オンラインでいくつかの研究を推奨することがあります。

しかし、AIと数学の状況はまったく異なると主張する人もいます。一方で、AI の分野には多額の資本投資と経済的利益が絡んでおり、ブロガーが推奨するコンテンツの客観性や公平性に影響を及ぼす可能性があります。一方、ブロガーは論文を選ぶ際に大規模な研究室の論文に注目する傾向があり、これは一部の小規模な研究室にとっては公平ではないかもしれません。

こうした潜在的な影響を観察した上で、論文の著者らは研究コミュニティに対し、より責任ある論文配布方法を構築し、より公平な環境を作り出すために多様な研究テーマ、著者、研究機関を紹介するよう呼びかけている。

論文の詳細は以下の通りです。

データ収集

この研究では、論文の引用数は古さ、質、トピックに最も影響を受けると仮定して、同じ基礎共変量を持つ実験グループと対照グループを比較し、平均効果を判定しました。費やした時間は簡単に測定できますが、論文の質とトピックを定量化することは困難です。

この研究では、論文のタイトルと概要のテキスト埋め込みを使用して、論文のトピックを概算しました。データ収集プロセス全体は、次の 3 つの部分で構成されていました。

(1)対象セット、すなわちTwitterブロガー@_akhaliqと@arankomatsuzakiがTwitterでシェアした論文を収集する。

(2)マッチング対象となる論文の大規模なデータセットを収集する。

(3)(1)の論文と(2)の論文を出版年、出版場所、タイトルと抄録のテキスト埋め込みの観点からマッチングさせてコントロールセットを設定する。

分析する

この研究では、Twitter ブロガーの AK 氏と Komatsuzaki 氏が共有した論文の影響力を対照群と比較し、選択された論文の地理的分布と著者の属性に基づいて多変量解析を実施しました。

この研究では、比較分析アプローチを使用して、以下の仮説を検証しました。

ブロガーが共有した論文は、同じ分野の他の論文と同じ数の引用があります。

ブロガーが共有する論文は、同じ分野の他の論文よりも引用数が多いです。

この研究では、ペアになったターゲットセットとコントロールセットを比較し、AKが共有した論文の引用数の中央値は24(95%CI:23、25)であるのに対し、コントロールグループでは14(95%CI:13、15)であることがわかりました。また、コマツザキが共有した論文の引用数の中央値は31(95%CI:27、34)であるのに対し、コントロールグループでは12(95%CI:10.5、13.5)でした。対応するコントロール セットと比較すると、両方の実験セットの分布は、下の図 3 に示すように、引用数が多くなる方向に偏っています。

図3(c)(d)に示すように、対照群と比較して、ブロガーが共有した論文の分布における第3四分位値と最大値が高くなっています。

2 サンプル QQ プロット (図 4) では、テスト分布の正規化された分位数が一貫して高くなっていることがわかります。表3に示すように、各サンプルペアのクリフデルタ値はQQの結果をさらに補強します。

表 3 のデータは、ブロガーが論文を共有することが、結果変数 (論文の引用数) の変化に実際に重要な影響を与えることを示しています。

最後に、この研究では、実験データの分布をコントロールセットの分布であるエップス・シングルトン(ES)、コルモゴロフ・スミルノフ(KS)、マン・ホイットニーU(MWU)と比較する3つのテストを通じて統計的有意性を確立しました。表3に示すように、すべての結果のp値はα = 0.001を大きく下回っています。したがって、この研究は、ブロガーとコントロール グループによって共有された論文の引用分布は同じであるという帰無仮説を強く反証できます。

全体的に、影響力のあるツイートと引用の相関関係は、機械学習コミュニティが論文を見つけて読む方法の変化を示唆しています。従来、トップカンファレンスでの受け入れ(つまりレビュースコア)が将来の引用の主な指標となってきましたが、この研究では、影響力のあるブロガーによる論文の共有が引用の重要な指標となっていることが示されています。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう

>>:  過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

ブログ    
ブログ    

推薦する

...

海外の科学者が「AI漢方」を開発:舌診断システムの精度は最大94%

10月23日、中国医学では2000年以上もの間、人の舌の色や形を観察して病気を診断してきたと報じら...

キャッシュ除去アルゴリズムLRU実装原理についてお話しましょう

[[315530]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...

ニューヨーク市の AI イニシアチブを分析: そこから何を学べるか?

エリック・アダムス市長は最近、ニューヨーク市政府がAI技術の応用を推進する計画を発表した。この計画に...

人工知能の便利な日常的な活用例8つ

「人工知能」という用語を Google で検索して、何らかの形でこの記事にたどり着いた場合、または ...

教師なし機械学習技術は金融セキュリティの懸念を解決できる

「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...

完全に無人運転? 2035年より前になる可能性は低いです!

無人運転技術の研究に対する熱意は相変わらず高いが、現実は市場に冷水を浴びせかけている。今後15年間で...

南洋理工大学の最新の視覚言語モデルの概要:事前トレーニング、転移学習、知識蒸留

コンピュータ ビジョン (CV) 研究における長年の課題として、視覚認識 (画像分類、オブジェクト検...

AIテクノロジーは法務サービスの未来をどのように変えるのでしょうか?

大規模な自然言語処理モデル(ChatGPT など)の急速な発展により、AI ツールは現在、調査、電子...

AIは40の言語を理解でき、15の言語で22の部門で1位を獲得しました。その背景には、中国チームの22年間の粘り強さがあります。

一気に15言語で22の1位を獲得!いや、もっとすごいのは、彼は40以上の言語を読んで理解できるという...

工場に産業用 IoT テクノロジーを導入する 5 つの理由

モノのインターネット(IoT)はどこにでもあります。実際、ここ数年、スマート製造、サプライ チェーン...

...

...

TikTok本社は米国に残り、ByteDanceが管理権とコアアルゴリズムを保持する

事情に詳しい関係者らは、米政府に提出した提案に基づき、バイトダンスがティックトックの本社を米国内に維...

「無人農業」は除草ロボットの導入も開始

農業は、国の経済発展における主要産業として、国民経済の重要な一環であり、常に国民経済の建設と発展を支...