GPT-4 が Nature の査読者になる?スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50%以上が人間の査読者と一致した。

GPT-4 が Nature の査読者になる?スタンフォード大学と清華大学の卒業生による約5,000の論文がテストされ、その結果の50%以上が人間の査読者と一致した。

GPT-4 がレビュー担当者になりました!

最近、スタンフォード大学などの研究者は、Nature や ICLR などのトップカンファレンスの何千もの論文を GPT-4 に入力し、レビューコメントと改訂提案を生成して、それを人間の査読者の意見と比較するように依頼しました。

写真

論文アドレス: https://arxiv.org/abs/2310.01783

その結果、GPT-4 は仕事を完璧にこなしただけでなく、人間よりも優れた成果を上げました。

提示された意見のうち、50% 以上が少なくとも 1 人の人間のレビュー担当者の意見と一致していました。

また、著者の 82.4% 以上が、GPT-4 によって得られた意見が非常に役立ったと述べています。

論文の著者であるジェームズ・ゾウ氏は次のように結論付けています。「質の高い人間によるフィードバックは依然として必要ですが、LLM は正式な査読の前に著者が論文の初稿を改善するのに役立ちます。」

写真

GPT-4の意見は人間の意見よりも優れているかもしれない

では、LLM に論文を査読してもらうにはどうすればよいでしょうか?

とても簡単です。紙の PDF からテキストを抽出し、GPT-4 に入力するだけで、すぐにフィードバックが生成されます。

具体的には、PDF 論文のタイトル、概要、図、表のタイトル、本文を抽出して解析する必要があります。

次に、業界のトップジャーナルやカンファレンスのレビューフィードバック形式に従う必要があることを GPT-4 に伝えます。この形式には、結果が重要かつ新規であるかどうか、論文が受け入れられた理由、論文が拒否された理由、改善の提案という 4 つの部分が含まれます。

写真

下の図からわかるように、GPT-4 は非常に建設的なフィードバックを提供し、フィードバックは 4 つの部分で構成されていました。

この論文の欠陥は何ですか?

GPT-4 はすぐに問題を指摘します。論文ではモーダルギャップ現象について言及していますが、ギャップを狭める方法を提案しておらず、そうすることの利点も証明していません。

写真

研究者らは、3,096 件の Nature 論文と 1,709 件の ICLR 論文について、人間によるフィードバックと LLM によるフィードバックを比較しました。

2 段階のレビュー マッチング パイプラインは、LLM と人間のフィードバックからそれぞれレビュー ポイントを抽出し、次にセマンティック テキスト マッチングを実行して、LLM と人間のフィードバック間の共通のレビュー ポイントを一致させます。

写真

次の図は、具体的な 2 段階のレビュー マッチング パイプラインを示しています。

ペアになったレビューごとに、類似度の評価と理由が示されます。

研究者らは類似度の閾値を 7 に設定し、一致度の低いコメントは除外しました。

写真

Nature および ICLR データセットでは、論文と人間のコメントの平均トークン長は次のとおりです。

写真

この研究には、米国の110のAIおよび計算生物学機関から308人の研究者が参加した。

各研究者は自分が書いた論文をアップロードし、LLM のフィードバックを読み、LLM のフィードバックに対する自身の評価と感想を記入しました。

写真

結果によると、研究者は、LLM によって生成されたフィードバックは人間の査読者のフィードバックとかなり重複しており、概ね役立つということに概ね同意していることがわかりました。

欠点があるとすれば、それはやや具体性に欠けることです。

写真

下の図に示すように、Nature に投稿された論文では、GPT-4 の意見の約 3 分の 1 (30.85%) が人間の査読者の意見と重複しています。

ICLR 論文では、GPT-4 の意見の 3 分の 1 以上 (39.23%) が人間の査読者の意見と重複しています。

写真

LLMと人間の査読者の優先順位は若干異なる

以下は、同じ ICLR 論文に対する LLM のコメントと人間のコメントです。LLM の洞察力は非常に鋭く、コメントも非常に的を射ていることがわかります。

例えば、以前の研究と比較して、人間の査読者は次のように述べています。

比較には欠陥がある。特に、GNN 手法のラベル一貫性と中心一貫性の損失は考慮されていません。より公平な比較を行うには、両方の損失を考慮した GNN 手法を使用します。

GPT-4 の評価は次のとおりです。

この論文には既存の方法との徹底的な比較が欠けている。著者らはいくつかの方法についてベースラインを比較しましたが、より包括的な比較が必要です。

写真

理論的な信頼性に関しては、人間の査読者は次のような意見を述べました。

私見ですが、この理論の証明はあまりにも簡単すぎます。最終的な結論は、類似性が適切であれば、予測されたアクションは正確であるということです。モデルは正しい類似性を学習しているので、モデル h が適切にトレーニングされていれば出力は正しいと言うことと同じです。これは明白なことだ。

GPT-4 の意見は次のとおりです。

著者は、情報伝達と一貫性制約の関係を比較するための理論的な分析をさらに提供し、読者が理解しやすくする必要があります。

写真

研究の再現性という点では、人間の査読者は、他の読者が実験を再現できるように論文にコードが記載されていることを望んでいます。

GPT-4 も同様の意見を述べています。「研究の再現性を確保するために、著者は実験設定についてより詳細な情報を提供する必要があります。」

写真

調査に参加したユーザーは、一般的に、LLM フィードバックがレビューの精度を向上させ、人間のレビュー担当者の作業負荷を軽減するのに役立つと考えていました。さらに、ほとんどのユーザーは、LLM フィードバック システムを再度使用するつもりです。

写真

興味深いことに、LLM の査読者は人間の査読者と比べて独自の特徴を持っています。

たとえば、インパクトファクターについては、人間の査読者よりも 7.27 倍頻繁に言及しています。

人間の査読者は追加のアブレーション実験を要求する可能性が高く、LLM はより多くのデータセットでの実験を要求することに重点を置いています。

写真

ネットユーザー:この作品は素晴らしい!

実際、私は長い間これをやっていて、論文を要約したり改善したりするためにさまざまな LLM を利用している、という人もいました。

写真

今日の査読基準を満たすために、GPT 査読者は偏見を持つようになるのだろうかと疑問に思う人もいます。

写真

GPT と人間によるレビュー意見の重複を定量化するという疑問も提起されました。この指標は有用でしょうか?

覚えておいてください。理想的には、査読者の意見があまり重複しないようにする必要があります。査読者を選択する目的は、異なる視点を提供できるようにすることです。

写真

しかし、少なくともこの研究により、LLM は論文を改訂するためのツールとして実際に使用できることがわかりました。

LLMに論文を査読してもらうための3つのステップ

1. PDF 解析サーバーを作成し、バックグラウンドで実行します。

 conda env create -f conda_environment.yml conda activate ScienceBeam python -m sciencebeam_parser.service.server --port=8080 # Make sure this is running in the background
 conda create -n llm pythnotallow=3.10 conda activate llm pip install -r requirements.txt cat YOUR_OPENAI_API_KEY > key.txt # Replace YOUR_OPENAI_API_KEY with your OpenAI API key starting with "sk-" python main.py

3. Web ブラウザを開いて論文をアップロードします。

http://0.0.0.0:7799 を開いて論文をアップロードすると、約 120 秒以内に LLM によって生成されたフィードバックが得られます。

写真

著者について

梁維新

Weixin Liang は、スタンフォード大学コンピュータサイエンス学部の博士課程の学生であり、James Zou 教授の指導を受けるスタンフォード人工知能研究所 (SAIL) のメンバーです。

それ以前は、スタンフォード大学で電気工学の修士号を取得し、そこでジェームズ・ゾウ教授と周瑜教授に指導を受けました。また、浙江大学でコンピューターサイエンスの学士号を取得し、そこでカイ・ブ教授とミンリ・ソン教授に指導を受けました。

彼は Amazon Alexa AI、Apple、Tencent でインターンシップを経験し、Daniel Jurafsky 教授、Daniel A. McFarland 教授、Serena Yeung 教授とともに働いてきました。

張宇輝

写真

Yuhui Zhang は、Serena Yeung 教授の指導を受けるスタンフォード大学コンピューターサイエンス学部の博士課程の学生です。

彼の研究対象は、マルチモーダル AI システムの構築と、マルチモーダル情報を活用した創造的なアプリケーションの開発です。

これに先立ち、彼は清華大学とスタンフォード大学で学部と修士課程を修了し、ジェームズ・ゾウ教授、クリス・マニング教授、ジュレ・レスコベック教授などの優れた研究者と共同研究を行ってきました。

ハンチェン・カオ

写真

Hancheng Cao 氏は、スタンフォード大学コンピュータサイエンス学部の 6 年目の博士課程の学生です (副専攻は経営科学と工学)。また、Dan McFarland 教授と Michael Bernstein 教授の指導を受けるスタンフォード大学の NLP グループとヒューマン コンピュータ インタラクション グループのメンバーでもあります。

彼は2018年に清華大学で電子工学の学士号を優秀な成績で取得しました。

2015年より清華大学で研究助手として勤務し、Yong Li教授およびVassilis Kostakos教授(メルボルン大学)の指導を受けています。 2016 年秋、メリーランド大学の名誉教授であるハナン・サメット教授の指導の下で研究を行いました。 2017 年の夏、彼は MIT メディアラボのヒューマンダイナミクスグループで交換留学生および研究助手として働き、アレックス「サンディ」ペントランド教授である Xiaowen Dong 教授の指導を受けました。

彼の研究対象は、計算社会科学、ソーシャルコンピューティング、データサイエンスです。

参照: https://arxiv.org/abs/2310.01783

<<:  大規模モデルのニューロンを分解します!クロードチームの最新の研究が人気を集め、ネットユーザー:ブラックボックスを開けよう

>>:  Python のアンサンブル学習とランダム フォレスト アルゴリズムを 10 分でマスターする

ブログ    

推薦する

【人工知能】人間と機械の対決知能技術の総合レビュー

[[359893]] 1 はじめに<br /> 人工知能は誕生以来、人間の知能と比較して...

無料の Python 機械学習コース 7: アルゴリズムのパフォーマンスが低い場合の対処方法

私たちは機械学習アルゴリズムの開発に多くの時間を費やしました。しかし、導入後にアルゴリズムのパフォー...

2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

[[253124]] 2018 年は AI 分野にとって依然として刺激的な年です。今年はNLP研究...

F#の並列ソートアルゴリズムは実装が簡単

F# の並列ソート アルゴリズムで最も一般的な方法の 1 つは、まず処理するデータを複数の部分に分割...

...

人工知能とサイバーセキュリティは諸刃の剣

[[379153]] [51CTO.com クイック翻訳] 研究によると、人工知能技術はさまざまな業...

...

AI研究も印象派から学べるのでしょうか?これらの生きているような人物は3Dモデルであることが判明した

19 世紀には、絵画、彫刻、版画などの分野で印象派の芸術運動が広まりました。その特徴は「形をほとんど...

AI画像認識は無関係? Google AI: 段階的なトレーニング セットで画像の説明精度を向上

絵を千語で説明できるとしたら、絵の中に描写できる詳細や物体間の関係性は実に多くあります。犬の毛の質感...

DeepMind: ビッグモデルのもう一つの大きな欠陥は、正しい答えが事前にわかっていなければ推論を自己修正できないことだ。

大規模言語モデルのもう一つの重大な欠陥が DeepMind によって明らかにされました。 LLM は...

ML Ops: データ品質が鍵

ML Ops は AI 分野における比較的新しい概念であり、「機械学習操作」として説明できます。モデ...

テクノロジー企業史上初:MetaがGPT3パラメータサイズのAIモデルをオープンソース化

テキスト段落の生成、人間の会話のシミュレーション、数学の問題の解決において驚くほど優れたパフォーマン...

...

...

ロボットも「感情カード」を切るが、人間の本性もアルゴリズムに変えられるのか?

[[228280]]画像出典: Visual Chinaもし人工知能がゆっくりと「感情を理解し」、...