Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデルタスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、Google は 7 つの言語の解釈ペアを含む新しいデータセット、PAWS と PAWS-X をリリースしました。 BERT は、このデータセットを使用したトレーニングを通じて、言い換え質問の精度を 3 倍向上させました。他の高度なモデルも、このデータセットを使用して精度を 85 ～ 90% に向上させることができます。 Googleは、これらのデータセットが多言語モデルのさらなる発展を促進することを期待しており、データセットを紹介する記事を公開しました。Leifeng.com AI開発者は以下のようにまとめています。

[[278629]]

背景

語順と構文構造は文の意味に大きな影響を与えます。語順を少し変えるだけでも文の意味は完全に変わってしまいます。たとえば、次の文は:

ニューヨークからフロリダまでのフライト。
ニューヨークからフロリダへのフライト。
フロリダからニューヨークへのフライト。

3 つの単語はすべて同じフレーズですが、1 と 2 は同じ意味を持ち、このような文のペアのセットを言い換えペアと呼びます。一方、1 と 3 は完全に反対の意味を持つため、非言い換えペアと呼びます。一対の文が言い換えペアであるかどうかを識別するタスクは、言い換え識別と呼ばれます。このタスクは、一般的な質問応答タスクなど、多くの実用的なアプリケーションにおける自然言語理解 (NLU) 処理にとって非常に重要です。

しかし驚くべきことに、BERT などの最も高度なモデルであっても、既存の NLU データセットのみでトレーニングした場合、ほとんどの非言い換えペア (上記の 1 と 3 など) の違いを正しく識別することはできません。その大きな理由は、既存の NLU データセットにそのようなトレーニングデータが不足していることです。そのため、既存の機械学習モデルは複雑な文脈上のフレーズをうまく理解できるものの、そのようなタスクに対する判断能力を備えることは依然として困難です。

PAWS データセットと PaWS-X データセット

この問題に対処するために、コミュニティが関連研究を実施できるようにするための 2 つの新しいデータセットをリリースしました。データセットには以下が含まれます。

英語の言い換え認識敵対データセット PAWS (Paraphrase Adversaries from Word Scrambling、https://arxiv.org/abs/1904.01130) をサポートします。
PaWS-X、多言語パラフレーズ認識敵対データセット (https://arxiv.org/abs/1908.11828)

そのうち、PaWS-X データセットは PAWS データセットを拡張したもので、他の 6 種類の言語を含む言い換え認識敵対データセットです。サポートされている言語は、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語です。

どちらのデータセットにも、重複する語彙が高度に含まれた、整形式の文のペアが含まれています。文のペアの約半分は言い換えペアですが、残りはそうではありません。また、データセットには最先端のモデルのトレーニングデータも含まれています。新しいデータでトレーニングすることで、言い換え認識タスクにおけるモデルの精度は 50% から 85～90% に向上しました。

非ローカルコンテキスト情報にアクセスできないモデルでは、新しいトレーニングデータを使用しても言い換え認識タスクを完了できなかった以前の状況と比較して、この新しいデータセットは、語順と構造に対するモデルの感度を測定するための効果的なツールを提供します。

データセットの詳細

PAWS データセットには、Quora Question Pairs (QQP、https://www.quora.com/q/quoradata/First-Quora-Dataset-Release-Question-Pairs) および Wikipedia ページ (https://www.wikipedia.org/) から取得された、手動でラベル付けされた文のペアが合計 108,463 セット含まれています。

PAWS-X データセットには、人間が判断した 23,659 セットの PAWS 拡張文ペアと、機械によって翻訳された 296,406 セットのトレーニングペアが含まれています。次の表はデータセットの詳細な統計を示しています。

PAWS-X のトレーニングセットは、PAWS wiki データセットのサブセットから機械翻訳されています。

英語版PAWSデータセット

「 PAWS: 単語スクランブルからの言い換え敵対者」では、単語の重複率が高い言い換えのような文のペアを生成するワークフローを紹介しました。

データペアを生成するには、まずソース文を特殊な言語モデル (https://en.wikipedia.org/wiki/Language_model) に渡します。このモデルでは、意味的に単語を入れ替えた異形文が作成されますが、生成された文が元の文の言い換えであるかどうかは保証されません。次に、人間の審査員が文が文法的に正しいかどうかを判断し、さらに別の人間の審査員が文が互いの言い換えであるかどうかを判断します。

PAWS コーパス作成ワークフロー

この単純な単語交換戦略の問題点は、常識に合わない言い換えが頻繁に生成されることです。たとえば、「なぜ善良な人々に悪いことが起こるのか」と「なぜ悪い人々に良いことが起こるのか」は、単語は同じですが、「なぜ悪い人々に良いことが起こるのか」とはまったく異なる意味になります。

そのため、言い換えと非言い換えのバランスを保つために、逆翻訳に基づく追加データ情報を追加しました。バックトランスレーションは、このような方法とは逆の傾向を示すことが多いため、まず文の意味を保存し、それに基づいて語順や単語の選択を変更することを選択します。これら 2 つの戦略は連携して、PAWS コーパス、特に Wikipedia データの全体的なバランスを確保します。

多言語PAWS-Xデータセットの作成

PAWS データセットを構築した後、中国語、フランス語、ドイツ語、韓国語、日本語、スペイン語を含む 6 つの言語に拡張しました。このプロセスでは、手動翻訳を使用して文のペアの翻訳拡張とテストセットの生成を完了し、ニューラルマシン翻訳 (NMT) サービスを使用してトレーニングセットの翻訳を完了しました。

6 つの言語の PAWS 拡張セットのそれぞれから 4,000 の文のペア (合計 48,000 の翻訳) をランダムに選択し、人間による翻訳を行いました (翻訳者はすべて、翻訳先の言語のネイティブスピーカーでした)。各文セットは独立しており、翻訳が文脈の影響を受けないことが保証されます。その後、2 番目の作業者がランダムにサンプリングされたサブセットを検証し、最終的にデータセットの単語レベルのエラー率が 5% 未満になります。

結果の文が不完全または曖昧な場合は、専門家が翻訳しないことを許可していることに注意してください。平均すると、翻訳されなかった文のペアは 2% 未満なので、今のところは除外します。最終的な翻訳ペアは、新しい拡張セットとテストセットに分割され、それぞれに約 2,000 個の文のペアが含まれます。

ドイツ語 (DE) と中国語 (ZH) の人間翻訳による文章の例

PAWSとPAWS-Xを使って言語を理解する

作成されたデータセットで複数のモデルをトレーニングし、評価セットで分類精度を測定します。 BERT や DIN などの強力なモデルを PAWS でトレーニングすると、既存の QQP データセットでトレーニングした場合のパフォーマンスが大幅に向上します。

既存の QQP でトレーニングした場合、BERT の精度は 33.5% にしか達しませんが、PAWS トレーニングインスタンス、つまり QQP の PAWS データ (PAWS-QQP) を使用すると、83.1% の精度を達成します。

ただし、BERT とは異なり、Bag-of-Words (BoW、https://en.wikipedia.org/wiki/Bag-of-words_model) モデルは PAWS トレーニングインスタンスから学習できないため、非ローカルなコンテキスト情報をキャプチャする上でも弱点があります。しかし全体的に、これらの結果は、PAWS が語順と構造に対するモデルの感度を効果的に測定できることを示しています。

PAWS-QQP 精度評価設定 (英語)

次の図は、次のようないくつかの一般的な方法を使用して、PAWS X 上で主流の多言語 BERT モデル (https://github.com/google-research/bert/blob/master/multilingual.md) のパフォーマンスを示しています。

Zero Shot: モデルは英語対応の PAWS データセットを使用してトレーニングされ、その後、機械翻訳を介さずに他のすべての翻訳で直接評価されます。（拡張された意味：ゼロショット翻訳とは、言語Aから言語Bへの翻訳トレーニングを完了した後、言語Aから言語Cへの翻訳にはそれ以上の学習が必要ないことを意味します。エンジニアが関連するトレーニングを受けたことがなくても、以前の学習結果を自動的に変換して任意の言語を翻訳できます）
翻訳テスト: 英語のトレーニングデータを使用してモデルをトレーニングし、すべてのテストケースを英語に翻訳して評価します。
翻訳トレーニング: 英語のトレーニングデータは各ターゲット言語に機械翻訳され、各モデルをトレーニングするためのデータが提供されます。
マージ: 元の英語のペアと他のすべての言語の機械翻訳データを含む、すべての言語で多言語モデルをトレーニングします。

結果は、新しいデータセットが、言語間テクノロジーへの支援を提供することに加えて、多言語の言い換え認識問題の研究を推進する多くの余地を残していることを示しています。

BERTモデルに基づくPAWS-Xテストセットの精度

データセットのダウンロード関連

PAWS-Wiki

コーパスには、Wikipedia ページ (直接ダウンロード可能) から生成された次のような文のペアが含まれています。

PAWS-Wik トークンセット (最終バージョン) には、単語交換および逆翻訳方法から生成された文のペアが含まれています。すべてのグループで、言い換え可能性と流暢さを手動で判断し、トレーニング/拡張/テストの部分に分けました。
PAWS-Wik トークンセット (Exchange のみ) には、逆翻訳された対応する文がない文のペアが含まれているため、このサブセットは最初のセットには含まれません。ただし、データセットは高品質であり、解釈可能性と流暢性に関する手動の判断が含まれているため、補助的なトレーニングセットとして使用できます。
PAWS-Wik ラベルなしセット (最終バージョン) には、単語交換および逆翻訳方法から生成された文のペアが含まれています。ただし、このサブセットにはノイズラベルは含まれていますが、人間の判断は含まれていないため、補助的なトレーニングセットとして使用することもできます。

PAWS-QQP

コーパスには QQP コーパスから生成されたペアが含まれていますが、QQP ライセンスのため、PAWS-QQP データを直接取得することはできません。そのため、元のデータをダウンロードし、スクリプトを実行してデータを生成し、タグを添付することで、例を再構築する必要があります。

PAWS-QQP コーパスを再構築するには、まず元の QQP データセットをダウンロードし、tsv ファイルを /path/to/original_qqp/data.tsv の場所に保存してから、特定のリンクから PAWS-QQP インデックスファイルをダウンロードする必要があります。

PAWS-X

コーパスには、フランス語、スペイン語、ドイツ語、中国語、日本語、韓国語の 6 つの言語での PAWS の例文翻訳が含まれています。詳細については、こちらをご覧ください (https://github.com/google-research-datasets/paws/tree/master/pawsx)。

なお、多言語実験の場合は、paws-x リポジトリで提供されている dev_2k.tsv を全言語（英語を含む）の拡張セットとして使用してください。

[[278631]]

データセットのダウンロードアドレス:
https://github.com/google-research-datasets/paws
オリジナルリンク:
https://ai.googleblog.com/2019/10/releasing-paws-and-paws-x-two-new.html

<<: マイクロソフトの新しい AI テクノロジー: プロフィール写真を動かして感情を「伝える」

>>: プログラマーの面接でよく聞かれる質問: スケジュールされたタスクスケジューラを設計し、どのようなアルゴリズムとデータ構造を使用するか