GPT-3 にフェイクニュースが流布されるのではないかと心配ですか? Google の新しい研究は、知識グラフをトレーニング用の「人間の言語」に変換する

GPT-3 にフェイクニュースが流布されるのではないかと心配ですか? Google の新しい研究は、知識グラフをトレーニング用の「人間の言語」に変換する

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

大規模な言語モデルが「すべてを飲み込んで」しまい、誤った情報でトレーニングされてしまうのではないかとまだ心配していますか?

過去において、これは確かに NLP モデルをトレーニングする際に考慮する価値のある難しい問題でした。

現在、Google はこの問題を根本的に解決しました。

彼らは、知識グラフを「人間の言語」で直接記述し、コーパスを生成し、それを NLP モデルに与えてトレーニングする、 TEKGENと呼ばれる AI モデルを作成しました。

ナレッジグラフの情報源は正確で信頼できるものが多く、また手作業で精査・レビューされているため、品質が保証されているからです。

現在、この研究はNAACL 2021に採択されています。

AI にナレッジグラフを「人間の言語」で記述させるにはどうすればよいでしょうか?

Google がナレッジ グラフを記述するために使用する TEKGEN モデル。完全な名前は Text from KG Generator です。

ナレッジグラフ内のすべての単語を読み取り、単語間の関係を整理し、「人間の言語」で話します。

下の図に示すように、変換ステートメントは 2 つのステップに分かれています。

まず、関係マップ内の単語を論理的に並べます。次に、いくつかの単語を追加し、文間の論理的な関係を調整して、完全な文にします。

この機能を実現するために、TEKGEN は4 つの部分で構成されています。

  • トリプル(主語、目的語、関係語を含む)を生成するジェネレーター。 Wikipedia のナレッジ グラフを Wikipedia のテキスト説明と照合して、トレーニング データ セットを生成します。
  • T5 のテキストからテキストへのジェネレーターは、トリプルをテキスト情報に変換するために使用されます。
  • エンティティ サブグラフ クリエーター。トリプル内のテキスト情報を文章に変換するために使用されます。
  • セマンティック品質フィルター。この部分は、低品質の出力を処理し、生成された文の品質を確保するために使用されます。

全体として、TEKGEN を使用してステートメントを生成するプロセスは次のとおりです。

生成された文は、大規模な言語モデルを安全にトレーニングするために使用できます。

この生成されたコーパスは4,500 万個のトリプルから生成され、合計で1,600 万個の文を形成します。

では、このコーパスでトレーニングされた NLP モデルは本当により良い結果を達成できるのでしょうか?

「人間は5点満点中4.3点を付けます」

まず、接続詞を使って文を作る方法の例をいくつか見てみましょう。

入力された単語からは、主語、目的語、および 2 つの単語の関係のみがわかります。

しかし、TEKGEN は何かを「理解」したようで、すぐにこれらの文を通常の文に組み合わせました。

時間、場所、従属関係が明確に区分されているだけでなく、日常会話の語順にも論理的に一致しています。

では、AI の「画像からテキストへの変換」機能に、5 点満点中、人間は何点をつけるでしょうか?

Google は評価を実施するためにボランティアを募集しました。結果から判断すると、TEKGEN は「意味」と「流暢さ」の両方で4.3 点を超える良好なスコアを達成しました。

もちろん、このコーパスでトレーニングされたモデルを評価するために、LAMA (言語モデル分析) プローブもここで使用されます。

Google-RE および TREx データセットでは、事前トレーニング済みモデルがさまざまなタスクで非常に優れた結果を達成しました。

将来的には、AI が大学入試中国語の「絵文字変換」問題に実際に挑戦することになるかもしれません。

著者について

[[403766]]

論文の筆頭著者である Oshin Agarwal 氏は、ペンシルバニア大学コンピューターサイエンス学部の博士課程の学生です。彼女の研究分野は、自然言語処理における情報抽出です。

この論文は彼女が Google でインターンシップをしていた間に完成しました。

Google の Heming Ge、Siamak Shakeri、Rami Al-Rfou もこの作業に参加しました。

現在、著者らはナレッジグラフを使用して生成されたこのコーパスを公開しています。

NLPモデルをトレーニングしたい友達はこれを使えますよ〜

論文の宛先:
出典: http://arxiv.org/abs/2010.12688

ナレッジグラフを使用して生成されたコーパス:
https://github.com/google-research-datasets/KELM-corpus

<<:  2021年5月のAI資金調達活動の概要

>>:  データが増えるほど、AI は賢くなるのでしょうか?私たちはそれを常に当然のこととして受け止めてきました。

ブログ    
ブログ    

推薦する

自動運転や人工知能はあなたの将来の生活にどのような変化をもたらすでしょうか?

[[324253]] 01 自動運転車社会科学者は、郊外化、汚染、自由、家族旅行、命の喪失、救われ...

続編が登場します! OpenAIがマスク氏を公式サイトに掲載、複数のメールのやり取りが暴露される

AIの歴史に残るほどのマスク氏とOpenAIのこの訴訟は、ドラマに満ちている! 3月5日、OpenA...

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

人工知能は、新たな科学技術革命と産業変革をリードする戦略的技術として、世界の主要国が科学技術の飛躍的...

世界情報会議が開幕、ロビン・リー、ジャック・マー、劉伝志ら著名人が集結

【51CTO天津6月29日】本日、「偉大な知能時代へ向かう」をテーマとする世界知能会議が天津梅江会議...

人工知能トレーナーの秘密を明かす:新しい職業、AIの教師になるのは簡単ではない

[[322342]]現在、人工知能はさまざまな分野でその力を発揮しています。特に、電子商取引サービス...

新しいAIにより、教師はインテリジェントな個別指導システムを迅速に開発できる

インテリジェントな個別指導システムは、代数や文法などの特定の科目の指導に効果的であることが証明されて...

AIとのダンスは次世代の労働者にとって必修科目

AI人材の不足は何も新しいことではありません。高い給与と高い教育がそれに付随することが多いです。 J...

...

...

大規模機械学習のためのプログラミング手法、計算モデル、Xgboost および MXNet の事例

[[191977]]現在、機械学習のトレンドは、従来の方法のシンプルなモデル + 少量データ (手動...

...

クラウドネットワークとAIに焦点を当てると、3大通信事業者の財務報告はどのようなことを明らかにするのでしょうか。

少し前に、中国移動、中国聯通、中国電信の3大通信事業者が2023年第2四半期の財務報告書を発表しまし...

ニューラル タンジェント、無限幅のニューラル ネットワーク モデルを作成するための 5 行のコード

[[322852]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

AI が企業のランサムウェア対策やクラウド セキュリティ侵害防止にどのように役立つか

サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...

CNNの簡単な分析と、長年にわたるImageNetチャンピオンモデルの分析

[[189678]]今日は、ディープラーニングにおける畳み込みニューラル ネットワークのいくつかの原...