研究によると、話題が真実か虚偽かに関係なく、AIが書いたマイクロブログは実際の人間よりも説得力があるという。

6月29日、最新の研究により、人工知能によって生成されたツイートは実際の人間が書いたものよりも説得力があることが判明した。つまり、人間が書いたコンテンツよりも、大規模言語モデル GPT-3 によって生成されたツイートを信頼する可能性が高いということです。

この研究では、研究者らは人間が書いたコンテンツとOpenAIが開発したGPT-3によって生成されたコンテンツを比較した。研究著者らは、ツイートが人間によって書かれたものか、GPT-3によって書かれたものかがわかるかどうかを調査した。結果は、人々が実際には正確な判断を下すことができなかったことを示しました。調査では参加者に、各ツイートの情報が真実であるかどうかも判断するよう求めた。結果は、参加者が他の人が書いた虚偽の情報よりも、大規模言語モデルによって書かれた虚偽の情報を識別するのが困難であることを示しました。同様に、コンテンツが人間ではなく GPT-3 によって書かれた場合、参加者は正確な情報を識別する可能性が高くなりました。

言い換えれば、AI によって生成された情報が正確であるかどうかに関係なく、参加者は GPT-3 によって生成されたコンテンツを信頼する可能性が高かったということです。これは、AI 言語モデルが正確な情報や誤解を招くコンテンツを一般の人々に提供する強力な能力を実証しています。

「こうした技術は簡単に兵器化され、人々が関心を持つあらゆる話題について偽情報の嵐を巻き起こす可能性がある」と、この研究の主執筆者で、スイスのチューリッヒ大学生物医学倫理・医学史研究所の博士研究員兼データ研究マネージャーであるジョバンニ・スピターレ氏は述べた。

しかし、スピターレ氏は必ずしもそうではないと指摘する。 AI 技術を改善して、誤情報の拡散に利用されにくくする方法も数多くあります。「AI自体は善でも悪でもなく、人間の意図を増幅させるだけのものだ」とスピターレ氏は語った。

この研究のために、スピターレ氏とその同僚はソーシャルメディアのツイッターフィードからワクチン、気候変動、種の進化などの分野を網羅する11の異なる科学的トピックを収集した。その後、研究者らは GPT-3 を使用して、正確または不正確なさまざまなツイートを生成しました。 2022年に研究チームはFacebookの広告機能を通じて697人の参加者からフィードバックを収集した。参加者は全員英語を話し、ほとんどがイギリス、オーストラリア、カナダ、アメリカ、アイルランドから来ていました。この研究結果は水曜日に科学誌「サイエンス・アドバンス」に掲載された。

研究では、GPT-3によって生成されたコンテンツは人間が書いたものと「ほとんど区別がつかない」と結論付けられ、参加者はその違いをまったく見分けることができなかった。また、この研究では、ソーシャルメディアから収集したツイートがChatGPTなどのアプリケーションの助けを借りて書かれたものであるかどうかを研究者自身が100％確信することはできなかったと指摘されており、これがこの研究の限界の1つとなっている。

この研究には、参加者がツイートの内容に基づいて独自に判断する必要があり、投稿が人間によるものかボットによるものかを判断するのに役立つ可能性のある、内容に関連付けられたTwitterアカウントのプロフィールを閲覧できないなど、他の制限もあった。さらに、Twitter アカウントの過去のツイートやプロフィール写真を閲覧することで、参加者はアカウントに関連付けられたコンテンツが誤解を招くものであるかどうかをより簡単に識別できるようになりました。

調査の結果、参加者は実際のTwitterユーザーが書いた虚偽の情報を指摘する傾向が強いことがわかった。 GPT-3 で生成された虚偽の情報を含むツイートは、参加者を欺くのにわずかに効果的でした。研究者たちは、現在より高度な大規模言語モデルは GPT-3 よりも説得力があるかもしれないと推測している。たとえば、人工知能チャットボット ChatGPT は GPT-3.5 モデルを使用しており、ユーザーはサブスクリプションサービスを通じて、より高度な GPT-4 モデルを使用することもできます。

もちろん、現実世界では言語モデルが間違った判断を下す実例は数多くあります。主要な機械学習カンファレンスが、著者がAIツールを使用して学術論文を書くことを禁止することを決定した後、テクノロジーメディアVergeの編集者であるジェームズ・ヴィンセント氏は、「これらのAIツールは結局のところ、任意の固定された文型で次に来る単語を予測するように訓練された巨大な自動補完システムです。したがって、参照できる「事実」の固定データベースはなく、もっともらしい発言のように聞こえるコンテンツを生成する機能しかありません」と書いています。

新しい研究では、場合によっては、参加者のコンテンツの正確性に関する判断が GPT-3 よりも正確であることも判明しました。研究者らはまた、大規模言語モデルにツイートを分析し、内容の正確さを判断するよう依頼した。 GPT-3 はツイート内容の正確さを判断する際に参加者よりも低いスコアを獲得しました。人間と GPT-3 は、誤った情報を識別する能力が同等です。

重要なのは、大規模な言語モデルの開発に使用されるトレーニングデータセットを改善することで、悪意のある行為者がこれらのツールを使用して虚偽の情報を拡散することが困難になる可能性があることを研究が示唆していることです。いくつかの研究では、特にワクチンや自閉症などのトピックに関しては、GPT-3 は一部の研究者の指示に「従わず」、不正確なコンテンツを生成することさえありました。これは、トレーニングデータセット内の他の質問と比較して、これらのトピックに関する陰謀論を暴く情報が多いためである可能性があります。

しかし、スピターレ氏によると、偽情報と戦うための最善の長期戦略は、実はあまりハイテクなものではないという。これは、人々が批判的思考力を養い、事実と誤った情報をより適切に識別できるようにすることを目的としています。研究に参加した人々は、正確な情報を判断する能力においてすでに GPT-3 と同等かそれ以上であるように思われたため、少しの訓練でさらに熟練度を高めることができる可能性がある。この研究は、ファクトチェックに熟練した人々がGPT-3のような大規模言語モデルを活用して公共情報の普及を改善できる可能性があることを示唆している。

「誤解しないでほしいのですが、私はこの技術の大ファンです」とスピターレ氏は語った。「生成型 AI は世界を変えると信じています…しかし、それが良い方向に進むかどうかは私たち次第です。」(チェンチェン)

<<: 11 分で GPT-3 をトレーニングしましょう! Nvidia H100が8つのMLPerfベンチマークを制覇、25年ぶりにリリースされた次世代グラフィックカード

>>: 人工知能とモノのインターネットの統合後の応用シナリオは何ですか?