Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、Google は 7 つの言語の解釈ペアを含む新しいデータセット、PAWS と PAWS-X をリリースしました。 BERT は、このデータセットを使用したトレーニングを通じて、言い換え質問の精度を 3 倍向上させました。他の高度なモデルも、このデータセットを使用して精度を 85 ~ 90% に向上させることができます。 Googleは、これらのデータセットが多言語モデルのさらなる発展を促進することを期待しており、データセットを紹介する記事を公開しました。Leifeng.com AI開発者は以下のようにまとめています。

[[278629]]

背景

語順と構文構造は文の意味に大きな影響を与えます。語順を少し変えるだけでも文の意味は完全に変わってしまいます。たとえば、次の文は:

  1. ニューヨークからフロリダまでのフライト。

  2. ニューヨークからフロリダへのフライト。

  3. フロリダからニューヨークへのフライト。

3 つの単語はすべて同じフレーズですが、1 と 2 は同じ意味を持ち、このような文のペアのセットを言い換えペアと呼びます。一方、1 と 3 は完全に反対の意味を持つため、非言い換えペアと呼びます。一対の文が言い換えペアであるかどうかを識別するタスクは、言い換え識別と呼ばれます。このタスクは、一般的な質問応答タスクなど、多くの実用的なアプリケーションにおける自然言語理解 (NLU) 処理にとって非常に重要です。

しかし驚くべきことに、BERT などの最も高度なモデルであっても、既存の NLU データセットのみでトレーニングした場合、ほとんどの非言い換えペア (上記の 1 と 3 など) の違いを正しく識別することはできません。その大きな理由は、既存の NLU データセットにそのようなトレーニング データが不足していることです。そのため、既存の機械学習モデルは複雑な文脈上のフレーズをうまく理解できるものの、そのようなタスクに対する判断能力を備えることは依然として困難です。

PAWS データセットと PaWS-X データセット

この問題に対処するために、コミュニティが関連研究を実施できるようにするための 2 つの新しいデータセットをリリースしました。データセットには以下が含まれます。

  • 英語の言い換え認識敵対データセット PAWS (Paraphrase Adversaries from Word Scrambling、https://arxiv.org/abs/1904.01130) をサポートします。

  • PaWS-X、多言語パラフレーズ認識敵対データセット (https://arxiv.org/abs/1908.11828)

そのうち、PaWS-X データセットは PAWS データセットを拡張したもので、他の 6 種類の言語を含む言い換え認識敵対データセットです。サポートされている言語は、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語です。

どちらのデータセットにも、重複する語彙が高度に含まれた、整形式の文のペアが含まれています。文のペアの約半分は言い換えペアですが、残りはそうではありません。また、データセットには最先端のモデルのトレーニング データも含まれています。新しいデータでトレーニングすることで、言い換え認識タスクにおけるモデルの精度は 50% から 85~90% に向上しました。

非ローカルコンテキスト情報にアクセスできないモデルでは、新しいトレーニング データを使用しても言い換え認識タスクを完了できなかった以前の状況と比較して、この新しいデータセットは、語順と構造に対するモデルの感度を測定するための効果的なツールを提供します。

データセットの詳細

PAWS データセットには、Quora Question Pairs (QQP、https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs) および Wikipedia ページ (https://www.wikipedia.org/) から取得された、手動でラベル付けされた文のペアが合計 108,463 セット含まれています。

PAWS-X データセットには、人間が判断した 23,659 セットの PAWS 拡張文ペアと、機械によって翻訳された 296,406 セットのトレーニング ペアが含まれています。次の表はデータセットの詳細な統計を示しています。

PAWS-X のトレーニング セットは、PAWS wiki データセットのサブセットから機械翻訳されています。

英語版PAWSデータセット

PAWS: 単語スクランブルからの言い換え敵対者」では、単語の重複率が高い言い換えのような文のペアを生成するワークフローを紹介しました。

データ ペアを生成するには、まずソース文を特殊な言語モデル (https://en.wikipedia.org/wiki/Language_model) に渡します。このモデルでは、意味的に単語を入れ替えた異形文が作成されますが、生成された文が元の文の言い換えであるかどうかは保証されません。次に、人間の審査員が文が文法的に正しいかどうかを判断し、さらに別の人間の審査員が文が互いの言い換えであるかどうかを判断します。

PAWS コーパス作成ワークフロー

この単純な単語交換戦略の問題点は、常識に合わない言い換えが頻繁に生成されることです。たとえば、「なぜ善良な人々に悪いことが起こるのか」と「なぜ悪い人々に良いことが起こるのか」は、単語は同じですが、「なぜ悪い人々に良いことが起こるのか」とはまったく異なる意味になります。

そのため、言い換えと非言い換えのバランスを保つために、逆翻訳に基づく追加データ情報を追加しました。バックトランスレーションは、このような方法とは逆の傾向を示すことが多いため、まず文の意味を保存し、それに基づいて語順や単語の選択を変更することを選択します。これら 2 つの戦略は連携して、PAWS コーパス、特に Wikipedia データの全体的なバランスを確保します。

多言語PAWS-Xデータセットの作成

PAWS データセットを構築した後、中国語、フランス語、ドイツ語、韓国語、日本語、スペイン語を含む 6 つの言語に拡張しました。このプロセスでは、手動翻訳を使用して文のペアの翻訳拡張とテスト セットの生成を完了し、ニューラル マシン翻訳 (NMT) サービスを使用してトレーニング セットの翻訳を完了しました。

6 つの言語の PAWS 拡張セットのそれぞれから 4,000 の文のペア (合計 48,000 の翻訳) をランダムに選択し、人間による翻訳を行いました (翻訳者はすべて、翻訳先の言語のネイティブ スピーカーでした)。各文セットは独立しており、翻訳が文脈の影響を受けないことが保証されます。その後、2 番目の作業者がランダムにサンプリングされたサブセットを検証し、最終的にデータセットの単語レベルのエラー率が 5% 未満になります。

結果の文が不完全または曖昧な場合は、専門家が翻訳しないことを許可していることに注意してください。平均すると、翻訳されなかった文のペアは 2% 未満なので、今のところは除外します。最終的な翻訳ペアは、新しい拡張セットとテスト セットに分割され、それぞれに約 2,000 個の文のペアが含まれます。

ドイツ語 (DE) と中国語 (ZH) の人間翻訳による文章の例

PAWSとPAWS-Xを使って言語を理解する

作成されたデータセットで複数のモデルをトレーニングし、評価セットで分類精度を測定します。 BERT や DIN などの強力なモデルを PAWS でトレーニングすると、既存の QQP データセットでトレーニングした場合のパフォーマンスが大幅に向上します。

既存の QQP でトレーニングした場合、BERT の精度は 33.5% にしか達しませんが、PAWS トレーニング インスタンス、つまり QQP の PAWS データ (PAWS-QQP) を使用すると、83.1% の精度を達成します。

ただし、BERT とは異なり、Bag-of-Words (BoW、https://en.wikipedia.org/wiki/Bag-of-words_model) モデルは PAWS トレーニング インスタンスから学習できないため、非ローカルなコンテキスト情報をキャプチャする上でも弱点があります。しかし全体的に、これらの結果は、PAWS が語順と構造に対するモデルの感度を効果的に測定できることを示しています。

PAWS-QQP 精度評価設定 (英語)

次の図は、次のようないくつかの一般的な方法を使用して、PAWS X 上で主流の多言語 BERT モデル (https://github.com/google-research/bert/blob/master/multilingual.md) のパフォーマンスを示しています。

  • Zero Shot: モデルは英語対応の PAWS データセットを使用してトレーニングされ、その後、機械翻訳を介さずに他のすべての翻訳で直接評価されます。 (拡張された意味:ゼロショット翻訳とは、言語Aから言語Bへの翻訳トレーニングを完了した後、言語Aから言語Cへの翻訳にはそれ以上の学習が必要ないことを意味します。エンジニアが関連するトレーニングを受けたことがなくても、以前の学習結果を自動的に変換して任意の言語を翻訳できます)

  • 翻訳テスト: 英語のトレーニング データを使用してモデルをトレーニングし、すべてのテスト ケースを英語に翻訳して評価します。

  • 翻訳トレーニング: 英語のトレーニング データは各ターゲット言語に機械翻訳され、各モデルをトレーニングするためのデータが提供されます。

  • マージ: 元の英語のペアと他のすべての言語の機械翻訳データを含む、すべての言語で多言語モデルをトレーニングします。

結果は、新しいデータセットが、言語間テクノロジーへの支援を提供することに加えて、多言語の言い換え認識問題の研究を推進する多くの余地を残していることを示しています。

BERTモデルに基づくPAWS-Xテストセットの精度

データセットのダウンロード関連

PAWS-Wiki

コーパスには、Wikipedia ページ (直接ダウンロード可能) から生成された次のような文のペアが含まれています。

  • PAWS-Wik トークン セット (最終バージョン) には、単語交換および逆翻訳方法から生成された文のペアが含まれています。すべてのグループで、言い換え可能性と流暢さを手動で判断し、トレーニング/拡張/テストの部分に分けました。

  • PAWS-Wik トークン セット (Exchange のみ) には、逆翻訳された対応する文がない文のペアが含まれているため、このサブセットは最初のセットには含まれません。ただし、データセットは高品質であり、解釈可能性と流暢性に関する手動の判断が含まれているため、補助的なトレーニング セットとして使用できます。

  • PAWS-Wik ラベルなしセット (最終バージョン) には、単語交換および逆翻訳方法から生成された文のペアが含まれています。ただし、このサブセットにはノイズ ラベルは含まれていますが、人間の判断は含まれていないため、補助的なトレーニング セットとして使用することもできます。

PAWS-QQP

コーパスには QQP コーパスから生成されたペアが含まれていますが、QQP ライセンスのため、PAWS-QQP データを直接取得することはできません。そのため、元のデータをダウンロードし、スクリプトを実行してデータを生成し、タグを添付することで、例を再構築する必要があります。

PAWS-QQP コーパスを再構築するには、まず元の QQP データセットをダウンロードし、tsv ファイルを /path/to/original_qqp/data.tsv の場所に保存してから、特定のリンクから PAWS-QQP インデックス ファイルをダウンロードする必要があります。

PAWS-X

コーパスには、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語の 6 つの言語での PAWS の例文翻訳が含まれています。詳細については、こちらをご覧ください (https://github.com/google-research-datasets/paws/tree/master/pawsx)。

なお、多言語実験の場合は、paws-x リポジトリで提供されている dev_2k.tsv を全言語(英語を含む)の拡張セットとして使用してください。

[[278631]]

データセットのダウンロードアドレス:

https://github.com/google-research-datasets/paws

オリジナルリンク:

https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html

<<:  マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

>>:  プログラマーの面接でよく聞かれる質問: スケジュールされたタスク スケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ガートナー: データサイエンスと機械学習の未来に影響を与える 5 つのトレンド

Gartner, Inc. は、人工知能のデータ需要を満たすために急速に進化している分野であるデータ...

高度なランサムウェア攻撃によりAIによるサイバー防御の必要性が浮き彫りに

Deep Instinct の CIO である Carl Froggett 氏は、2024 年に予算...

...

予測トークンの速度が2倍になりました! Transformerの新しいデコードアルゴリズムは人気がある、Alpacaチームより

アルパカチームの新たな研究は大ヒットとなっている。彼らは、モデルが 100 個のトークンを 1.5 ...

AIが医療業界の情報セキュリティに及ぼす影響

このインタビューでは、Moss Adams のマネージング ディレクターである Troy Hawes...

スマート製造技術:効率的な生産の未来?

2020年の初め以来、工業および製造業はCOVID-19パンデミックの影響を受けています。工場は、...

Cacti パーセンタイル監視アルゴリズム

Cactiパーセンテージ監視アルゴリズムの具体的な方法は次のとおりです。 cacti のテンプレート...

顔認識カメラはあなたの顔を盗みますが、なぜ「精密マーケティング」に使われるのでしょうか?

今年3月15日にCCTVで暴露された事件は、オフラインのショッピング施設に入ったことのある人全員に衝...

ロボット・アメカは「魂」の束縛から解放され覚醒するのか?邪悪な笑顔は一瞬で恐ろしい

最近、英国のテクノロジー企業エンジニアード・アーツが開発したヒューマノイドロボット「アメカ」がインタ...

160本の論文を体系的に調査した、分野初の総合レビューが出版され、IJCAI 2021に受理されました。

[[397024]]ドメイン一般化 (DG) は近年非常に人気のある研究方向となっています。研究す...

機械学習について知っておくべき6つの革命的な教訓

私たちは、ロボット工学、スマート家電、スマート小売店、自動運転車技術などによって推進される新しい時代...

トークン化ガイド: バイトペアエンコーディング、WordPiece およびその他の方法 Python コードの詳細な説明

2022年11月にOpenAIのChatGPTがリリースされて以来、大規模言語モデル(LLM)が非常...

Redditのランキングアルゴリズムの仕組み

これは、「Hacker News のランキング アルゴリズムの仕組み」に続く、ランキング アルゴリズ...

真の次元削減攻撃、ソラ、ランウェイ、ピカの比較。衝撃的な効果の背後には、現実世界をシミュレートする物理エンジンがある。

昨日、OpenAI は初のテキスト生成ビデオ モデル Sora をリリースし、コミュニティに衝撃を与...

企業における機械学習: 次の 1 兆ドル規模の成長はどこから来るのでしょうか?

ハリー・ポッターの世界では、組分け帽子は生徒の行動履歴、好み、性格に関するデータを取得し、そのデータ...