MIT、Wikipedia の更新、間違いの修正、偽ニュースの特定を行う AI 編集システムを開始

[[334141]]

誰でも編集できるオンライン百科事典である Wikipedia では、各エントリを最新の状態に保つために多くの時間と労力を費やす多数のボランティア編集者が必要です。ボランティア編集者はたくさんいますが、毎日何千ページものページをタイムリーに更新し続けることは、依然として非常に困難な作業です。

少し前、MIT の研究者らは、オンライン百科事典の不正確な部分を自動的に更新し、人間の編集者を支援する新しい AI システムを発表しました。

MITでコンピューターサイエンスとAI実験を研究する博士課程の学生、ダーシュ・シャー氏は「ウィキペディアの記事は絶えず更新する必要があるため、各記事の修正には数百人の人手が必要だが、AIは修正を自動的に完了できるため、効率が大幅に向上する」と語った。

研究者らは、人間が書いたり編集したりするのと同じような言語を使いながら、関連するウィキペディアの文章内の特定の情報を正確に特定して置き換えるテキストシステムを提案している。

人がインターフェースに更新情報を含む非構造化文章を入力すると、AI は Wikipedia で正しいページと古い情報を検索し、人間に近い言語スタイルでコンテンツを提示します。

Wikipedia を自動的に編集できるロボットは他にもたくさんありますが、シャー氏は「これらのツールはルールベースで、限られた情報をあらかじめ定義されたテンプレートに入力します。一方、編集作業は、2 つの文の矛盾する部分を推論し、一貫したテキスト文を生成することが中心です。研究者のモデルは、構造化されていない情報を入力し、人間のような方法で文を自動的に修正することでこの問題を解決します」と述べています。

AIは矛盾する情報を識別する

2 つの別々の文の間で矛盾する情報を識別し、それらを融合することは、人間にとっては簡単ですが、機械学習にとっては新しいタスクです。

たとえば、元の文は「ファンド A は、活動中の事業会社の 42 の少数株主持分のうち 28 がグループにとって特に重要であると考えている」ですが、最新の情報では「ファンド A は、43 の少数株主持分のうち 23 が重要であると考えている」となっています。

これらの 2 つの文に基づいて、システムはまず「ファンド A」に関する関連する Wikipedia テキストを見つけ、次に古い番号 28 と 42 を自動的に削除し、新しい番号 23 と 43 に置き換えます。

MIT、Wikipedia を更新、誤りを訂正、偽ニュースを識別する AI 編集システムを導入

通常、システムは、1 つの文が主張であり、もう 1 つが関連する Wikipedia の文である文のペアを含む一般的なデータセットでトレーニングされます。各ペアには、次の 3 つのラベルが付けられます。「同意」は文が一致することを意味し、「同意しない」は矛盾する情報があることを意味し、「中立」はどちらのラベルにも十分な情報がないことを意味します。

システムの目標は、古くなったすべての文を対応する要件を満たすように修正し、矛盾するすべての文のペアを「合意」させることです。したがって、目的の出力を生成するには別のモデルを使用する必要があります。

このモデルは、各文のペアを「同意」、「反対」、「中立」と事前にラベル付けし、「反対」のペアに重点を置くファクトチェック分類器です。分類器と並行して実行されるのは、古い文のどの単語が主張の文と矛盾するかを識別するカスタム「ニュートラルマスキング」モジュールです。これは、古くなった文にバイナリ「マスク」を作成し、削除される可能性が最も高い単語に 0 を配置し、保持される単語に 1 を配置します。

マスキング後、古い文に対して 2 つのエンコーダー/デコーダーフレームワークが使用され、削除する必要がある単語 (0 で覆われた単語) を融合して、異なる情報で埋めます。

このモデルは、他のいくつかの従来のテキスト生成方法よりも事実情報の更新の精度が高く、その出力は人間の文章に似ていました。あるテストでは、研究者らは、出力された文章が事実の更新をどの程度含んでいるか、また人間の文法にどの程度一致しているかに基づいて、モデルを 1 から 5 のスケールで採点しました。モデルは、事実の更新で平均 4、文法の一致で平均 3.85 のスコアを獲得し、他のすべての従来の方法よりも高いスコアを獲得しました。

研究者たちは、将来AIがこのプロセス全体を自動化できるようになることを期待している。つまり、AIがウェブ上で関連トピックの最新ニュースを検索し、テキストを置き換えて、Wikipedia上の古くなった情報を自動的に更新できるようになるということだ。

データセットを拡張してエラーを排除する

この研究では、このシステムを使用してデータセットを強化し、「フェイクニュース」の検出器を訓練する際に偏りを排除できることも示されました。

「フェイクニュース」とは、虚偽の情報を含み、注目を集めたり、読者を誤解させたり、世論を誘導したりすることを目的としたプロパガンダの一種です。これらの部分検出器は、同意と不同意のペアのデータセットでトレーニングされ、与えられた証拠と照合して、ニュースの真偽を検証します。これらの文章のペアでは、主張は特定の情報をWikipedia上の裏付けとなる「証拠」と比較しており、モデルは証拠に反論して文章を「偽」とラベル付けすることでフェイクニュースの識別を支援するようにトレーニングされています。

しかし、データセットには予期しないバイアスが伴うことがよくあります。「トレーニング中、モデルは対応する証拠文にあまり依存せずに、人間の書き言葉の要件に基づいて特定の文を誤りとしてフラグ付けします」とシャー氏は言う。「これにより、事実確認が行われないため、現実世界の例を評価するモデルの精度が低下します。」

そのため、研究者たちは、データセット内の不一致ペアのバランスを取り、偏りを減らすために、同じ削除および融合技術を使用しました。一部の「不一致」ペアでは、修正された文の偽の情報を使用して、偽の「証拠」を裏付ける文を再生成しました。また、「同意」と「不一致」の両方の文に短い文もいくつか存在するため、モデルはより多くの特徴を分析し、拡張されたデータセットを取得できます。

研究者たちはこの方法を使って、人気のフェイクニュース検出器のエラー率を13%削減した。

WikipediaがAI編集を導入

2015年に、Wikipedia は Wikipedia の変更を自動的に分析するように設計された AI エンジンを構築しました。

Wikipedia は誰でも編集できるため、誤って虚偽の情報を追加してサイトに損害を与える可能性があります。そのため、初期の Wikipedia では、多くの人が Wikipedia 編集者に加わることを防ぐために、厳格な審査システムを確立しました。

Wikipedia の上級研究科学者である Halfaker 氏は、この種の破壊行為を特定し、より友好的な方法で新規ユーザーの関与を高めるために独自の AI エンジンを構築しました。同時に、彼は「このサービスですべての破壊行為を捕捉できるわけではないが、大部分は捕捉できるだろう」と認めた。

ハルフェイカー氏のプロジェクトは、実はウィキペディアへの人々の参加を増やすことを目的としていた。しかし、5年後、ウィキペディアの情報を自動的に更新できる新しいテキストシステムの登場により、ボランティア編集者の作業負荷は大幅に軽減され、編集者は排除される方向に向かっている。

機械はますます賢くなり、機械による自動化が人間の仕事に取って代わることがますます一般的になりつつあります。人間が機械に置き換えられるかどうかも、現在注目されている話題です。今後 20 年間で AI とロボットが最大 47% の仕事を置き換えると予測する人もいますが、AI が多数の新しい仕事を生み出すと考える人もいます。

将来何が起こるかは誰にも予測できません。私たちにできることは、今をつかむことだけです。

<<: 機械学習エンジニアとデータサイエンティストの戦い

>>: AI、IoT、ビッグデータでミツバチを救う方法