ニューラル機械翻訳のための談話レベルの単一言語修正モデル

[[280280]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「ニューラル機械翻訳のための談話レベルの単一言語修正モデル」[1]は、EMNLP 2019で発表された談話レベルのニューラル機械翻訳に関する論文です。段落レベルのバイリンガルデータが不足しているという問題に対応して、この記事では段落レベルのモノリンガルデータを使用して最終的なパフォーマンスを向上させる方法を検討し、従来の文レベルの翻訳結果を修正するためにターゲット側のモノリンガルに基づく段落レベルの修正モデル (DocRepair) を提案します。

1. 背景

近年、ニューラル機械翻訳は急速に発展しており、2017年にGoogleが提唱したTransformerモデル[2]により翻訳品質は大きく向上し、一部の領域では人間の翻訳に匹敵するレベルに達している[3]。しかし、今日の機械翻訳システムのほとんどは、依然として文レベルの情報に基づいており、段落レベルの文脈情報を活用することができません。機械翻訳プロセスで段落レベルの情報を効果的に活用する方法は、現在の研究のホットスポットの 1 つです。

機械翻訳タスクにおける自己注意メカニズムに基づく Transformer モデルが広く適用されるようになったため、リカレントニューラルネットワーク (RNN) 機械翻訳モデルに基づく以前の段落レベルの方法の多くは適用できなくなりました。最近、多くの研究者がエンコードまたはデコードの段階でコンテキスト情報を導入することで Transformer を改善しようと試みています。 Voitaら[4]は、Transformerモデル（図1）に基づいた段落レベルの翻訳モデルを初めて提案しました。従来のモデルに加えて、コンテキスト情報をエンコードするためのコンテキストエンコーダが追加され、現在の文のエンコード結果と融合されてデコーダに送られました。 Zhang Jiachengら[5]は別のアプローチを採用し、エンコーダとデコーダにそれぞれコンテキストアテンションサブレイヤーを追加して（図2）、コンテキスト情報を導入しました。一部の研究者は、2パスモデル[6][7]の使用も試みています。このモデルでは、最初に文レベルのデコードを実行し、次に段落レベルのデコーダーを使用して文レベルのデコード結果とソース言語のコンテキストエンコーディングを組み合わせて段落レベルのデコードを実行します。さらに、段落レベルの翻訳にどのような文脈情報を導入する必要があるかを検討した研究もあります。

上記の研究では、機械翻訳のプロセスに文脈情報を導入し、段落レベルの翻訳を全体的なプロセスとして捉えています。このモデリング方法はより自然ですが、トレーニングには十分な段落レベルのバイリンガルデータが必要です。しかし、実際には章レベルでバイリンガルデータを取得することは困難です。著者は、章レベルでのバイリンガルデータの不足という問題に対処するために、DocRepair モデルを提案しました。

2. DocRepairモデル

2 段階方式と同様に、DocRepair モデルも文レベルの結果を修正しますが、違いは、DocRepair モデルでは単一言語データのみを使用する必要があることです。 DocRepair モデルは、単一言語のシーケンスツーシーケンスモデル (seq2seq) であるため、コンテキストの不一致を解決するために、一貫性のないコンテキストを持つ文のグループを一貫した結果にマッピングする必要があります。このプロセスを図 2 に示します。

モデルのトレーニングコーパスは、簡単にアクセスできる単一言語のテキストレベルのコーパスから取得されます。単一言語データ内の文脈一貫性のある文グループはモデル出力として使用され、ラウンドトリップによって構築された文脈一貫性のない文グループはモデル入力として使用されます。往復は 2 つの段階に分かれており、順方向と逆方向の 2 つの変換システムが必要です。まず、逆翻訳モデルを使用して、ターゲット側の章レベルの単一言語データをソース言語側に翻訳し、文間のコンテキスト情報を含むソース言語の結果を取得します。次に、ソース言語の結果を順翻訳モデルを介してターゲット側に再翻訳し、矛盾したコンテキストを持つターゲット側データを取得します。全体的なプロセスを図3に示します。

DocRepair モデルは、標準の Transformer 構造を使用します (図 4)。モデル入力は、コンテキスト情報を含まない文のシーケンスであり、分離トークンを介して長いシーケンスに接続されます。モデル出力は、一貫したコンテキストを持つ修正されたシーケンスであり、最終結果は分離トークンを削除することによって得られます。

著者が提案する構造は、翻訳モデルに依存しない自動ポスト編集システムとみなすことができ、その最大の利点は、対象の単一言語データのみを使用してトレーニングセットを構築できることです。それに応じて、このアプローチでは追加の構造が導入され、システム全体の複雑さが増し、トレーニングと推論のコストが増加します。同時に、翻訳結果に基づいてターゲット側でのみ修正が行われるため、ソース言語からの情報はまったく導入されず、DocRepair モデルはコンテキスト情報を十分に考慮しない可能性があります。これまでの研究でも、段落レベルの機械翻訳におけるソース言語のコンテキスト情報の役割が確認されています。ソース言語の単一言語データを使用してコンテキスト情報をより適切に抽出する方法も、今後研究する価値のある方向性です。

3. 実験

この方法の有効性を検証するために、著者らはBLEU、段落レベルの専用テストセット、手動評価の3つの観点から比較実験を行った。実験は英語とロシア語のタスクで実施され、使用されたデータセットはオープンデータセット OpenSubtitles2018 でした。

表1はDcoRepairの比較実験結果を示しています。このうちベースラインはTransformerベースモデルを採用しており、CADec[7]は2段階の章レベル翻訳モデルである。同時に、文章を後編集することで翻訳品質が向上するだけでなく、段落レベルの翻訳におけるDocRepairモデルの有効性を検証するために、文章レベルの修復モデルもトレーニングしました。 DocRepair は段落レベルの機械翻訳に効果的であり、文レベルの修復モデルよりも 0.5 BLEU 高く、ベースラインおよび CADec と比較して 0.7 BLEU の改善が見られることがわかります。

人間による評価では、DocrePair モデルが入力を完全にコピーしたケースを除いて、一般的なテストセットから 700 個の例が使用されました。表 2 に示すように、サンプルの 52% は手動で同じ品質であると注釈が付けられ、残りのサンプルのうち 73% は DocrePair からの出力の方が優れていると判断され、モデルの有効性も確認されました。

段落レベルの翻訳における特定の問題に対するDocRepairの有効性を分析するために、著者らは英語-ロシア語の段落レベルの翻訳現象のために特別に構築されたデータセット[9]でそれを検証した。結果を表3に示す。 deixis は文間の参照問題を表し、lex.c はテキスト内のエンティティ翻訳の一貫性問題を表し、ell.infl と ell.VP はそれぞれソース言語には含まれるがターゲット言語には含まれない名詞形と動詞省略現象に対応します。

DocRepair は参照、語彙選択、名詞形態省略の問題では明らかに優位性がありますが、動詞省略の問題では DocRepair モデルは CADec よりも 5 パーセントポイント低くなります。考えられる理由は、DocRepair モデルがターゲット言語のみに依存しており、ラウンドトリップ方式を使用して構築されたトレーニングセットには動詞が欠落しているサンプルがほとんど含まれていないため、モデルが正しい予測を行うことが困難になっていることです。

単一言語データの限界を検証するために、著者らは DocRepair モデル上でさまざまなデータ構築方法の比較実験を実施しました。結果を表 4 に示します。一方向とは、ラウンドトリップの最初のステップをバイリンガルデータのソース言語に置き換える逆のプロセスを指します。一般的には片道方式の方が往復方式よりも優れていることがわかりますが、往復方式にとって最も難しい問題は動詞の省略です。

4. まとめ

この研究では、機械翻訳の結果を修正し、段落レベルの不一致を解決するために、ターゲット言語に完全に基づいた DocRepair モデルを提案しています。同時に、特定の段落レベルの問題における DcoRepair のパフォーマンスが分析され、単一言語データとラウンドトリップ構築方法のみに依存することの限界が指摘されています。

これまでの研究は、主にデコード処理中に文脈情報を統合する方法に焦点を当ててきましたが、段落レベルのバイリンガルデータの不足によりパフォーマンスが制限されることがよくあります。この研究は、バイリンガルデータの不足という問題を回避するための新しいアイデアを提供しますが、同時に新しい問題も生じます。段落レベルの翻訳の目的は、従来の文レベルの翻訳で文間の文脈情報が失われる問題を解決することです。このポスト編集方法では、ターゲット側の文脈の一貫性のない翻訳結果セットのみを使用して、ソース言語への配慮が欠けている単一言語修正モデルを通じて一貫した結果を得ることができます。著者は、バイリンガルが不足している場合、ソース言語のコンテキスト情報をより適切に導入する方法も興味深い問題であると考えています。

参考文献

[1] Voita、Elena、Rico Sennrich、Ivan Titov。「ニューラル機械翻訳のためのコンテキスト認識型単一言語修復」arXivプレプリントarXiv:1909.01383 (2019)。

[2] Vaswani、Ashish、et al.「必要なのは注意力だけ」神経情報処理システムの進歩。2017年。

[3] ハッサン・ハニー他「中国語から英語へのニュース自動翻訳で人間と同等の成果を達成する」arXivプレプリントarXiv:1803.05567 (2018)。

[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). 文脈認識ニューラル機械翻訳がアナフォラ解決を学習する。arXivプレプリントarXiv:1805.10163。

[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). ドキュメントレベルのコンテキストによるトランスフォーマー翻訳モデルの改善。arXiv プレプリント arXiv:1810.03581。

[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019年7月)。談話ニューラル機械翻訳のための一貫性のモデリング。AAAI人工知能会議論文集(第33巻、7338-7345頁)。

[7] Voita, E., Sennrich, R., & Titov, I. (2019). 「文脈上、良い翻訳が間違っている場合：文脈認識型機械翻訳は指示語、省略語、語彙の結束性を改善します」arXivプレプリントarXiv:1905.05979.

<<: 最先端のディープラーニングデバイスのベンチマーク：Nvidia Jetson Nanoが勝利

>>: 新しいAIプログラミング言語はディープラーニングを超える

人工知能は真のスマートホームを実現できるのか？

ブログ

ロボットは購入するよりもレンタルした方が良いのでしょうか?新モデルの普及には「4段階をクリア」する必要がある

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

1. 背景

2. DocRepairモデル

3. 実験

4. まとめ

人工知能は真のスマートホームを実現できるのか？

ロボットは購入するよりもレンタルした方が良いのでしょうか?新モデルの普及には「4段階をクリア」する必要がある

敵対的 AI とは何ですか?なぜそれが重要なのでしょうか?

ChatGPTの収益成長は阻害されている：モバイルアプリのダウンロードは急増しているが、拡大は遅い

引退した中国人女性のAIによるイラストがWeiboで話題に！「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

ロボットを活用する3つの革新的な方法

CNNの簡単な分析と、長年にわたるImageNetチャンピオンモデルの分析

推薦する

AIシミュレーターが物理シミュレーションで新たなSOTAを達成！

イアン・マッシンガム：AWSはモノのインターネットと人工知能への投資を継続

能力が高くても給料が高くならない？これらの考えはあなたに合うでしょう

AIバーチャルアシスタント：私たちはオペレーターの新たなお気に入りです

Daguan Data: ナレッジグラフと Neo4j の簡単な分析

教育業界における自動問題解決と適応学習AIの応用

フォレスターの予測: 2021年に人工知能が輝く

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

人間の目に匹敵する視覚：この画期的な光学センサーは人間の網膜を模倣し、AIに大きな進歩をもたらすことが期待されています。

快手の生活行動モデリングソリューションTWINは、数年分の過去のビデオをレビューし、ユーザーの隠れた興味を探ることで、KDD 2023に選ばれました。

2021 年の自然言語処理 (NLP) のトレンドトップ 10