ニューラル機械翻訳のための談話レベルの単一言語修正モデル

ニューラル機械翻訳のための談話レベルの単一言語修正モデル

[[280280]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「ニューラル機械翻訳のための談話レベルの単一言語修正モデル」[1]は、EMNLP 2019で発表された談話レベルのニューラル機械翻訳に関する論文です。段落レベルのバイリンガル データが不足しているという問題に対応して、この記事では段落レベルのモノリンガル データを使用して最終的なパフォーマンスを向上させる方法を検討し、従来の文レベルの翻訳結果を修正するためにターゲット側のモノリンガルに基づく段落レベルの修正モデル (DocRepair) を提案します。

1. 背景

近年、ニューラル機械翻訳は急速に発展しており、2017年にGoogleが提唱したTransformerモデル[2]により翻訳品質は大きく向上し、一部の領域では人間の翻訳に匹敵するレベルに達している[3]。しかし、今日の機械翻訳システムのほとんどは、依然として文レベルの情報に基づいており、段落レベルの文脈情報を活用することができません。機械翻訳プロセスで段落レベルの情報を効果的に活用する方法は、現在の研究のホットスポットの 1 つです。

機械翻訳タスクにおける自己注意メカニズムに基づく Transformer モデルが広く適用されるようになったため、リカレントニューラルネットワーク (RNN) 機械翻訳モデルに基づく以前の段落レベルの方法の多くは適用できなくなりました。最近、多くの研究者がエンコードまたはデコードの段階でコンテキスト情報を導入することで Transformer を改善しようと試みています。 Voitaら[4]は、Transformerモデル(図1)に基づいた段落レベルの翻訳モデルを初めて提案しました。従来のモデルに加えて、コンテキスト情報をエンコードするためのコンテキストエンコーダが追加され、現在の文のエンコード結果と融合されてデコーダに送られました。 Zhang Jiachengら[5]は別のアプローチを採用し、エンコーダとデコーダにそれぞれコンテキストアテンションサブレイヤーを追加して(図2)、コンテキスト情報を導入しました。一部の研究者は、2パスモデル[6][7]の使用も試みています。このモデルでは、最初に文レベルのデコードを実行し、次に段落レベルのデコーダーを使用して文レベルのデコード結果とソース言語のコンテキストエンコーディングを組み合わせて段落レベルのデコードを実行します。さらに、段落レベルの翻訳にどのような文脈情報を導入する必要があるかを検討した研究もあります。

上記の研究では、機械翻訳のプロセスに文脈情報を導入し、段落レベルの翻訳を全体的なプロセスとして捉えています。このモデリング方法はより自然ですが、トレーニングには十分な段落レベルのバイリンガルデータが必要です。しかし、実際には章レベルでバイリンガルデータを取得することは困難です。著者は、章レベルでのバイリンガルデータの不足という問題に対処するために、DocRepair モデルを提案しました。

2. DocRepairモデル

2 段階方式と同様に、DocRepair モデルも文レベルの結果を修正しますが、違いは、DocRepair モデルでは単一言語データのみを使用する必要があることです。 DocRepair モデルは、単一言語のシーケンスツーシーケンス モデル (seq2seq) であるため、コンテキストの不一致を解決するために、一貫性のないコンテキストを持つ文のグループを一貫した結果にマッピングする必要があります。このプロセスを図 2 に示します。

モデルのトレーニング コーパスは、簡単にアクセスできる単一言語のテキスト レベルのコーパスから取得されます。単一言語データ内の文脈一貫性のある文グループはモデル出力として使用され、ラウンドトリップによって構築された文脈一貫性のない文グループはモデル入力として使用されます。往復は 2 つの段階に分かれており、順方向と逆方向の 2 つの変換システムが必要です。まず、逆翻訳モデルを使用して、ターゲット側の章レベルの単一言語データをソース言語側に翻訳し、文間のコンテキスト情報を含むソース言語の結果を取得します。次に、ソース言語の結果を順翻訳モデルを介してターゲット側に再翻訳し、矛盾したコンテキストを持つターゲット側データを取得します。全体的なプロセスを図3に示します。

DocRepair モデルは、標準の Transformer 構造を使用します (図 4)。モデル入力は、コンテキスト情報を含まない文のシーケンスであり、分離トークンを介して長いシーケンスに接続されます。モデル出力は、一貫したコンテキストを持つ修正されたシーケンスであり、最終結果は分離トークンを削除することによって得られます。

著者が提案する構造は、翻訳モデルに依存しない自動ポスト編集システムとみなすことができ、その最大の利点は、対象の単一言語データのみを使用してトレーニングセットを構築できることです。それに応じて、このアプローチでは追加の構造が導入され、システム全体の複雑さが増し、トレーニングと推論のコストが増加します。同時に、翻訳結果に基づいてターゲット側でのみ修正が行われるため、ソース言語からの情報はまったく導入されず、DocRepair モデルはコンテキスト情報を十分に考慮しない可能性があります。これまでの研究でも、段落レベルの機械翻訳におけるソース言語のコンテキスト情報の役割が確認されています。ソース言語の単一言語データを使用してコンテキスト情報をより適切に抽出する方法も、今後研究する価値のある方向性です。

3. 実験

この方法の有効性を検証するために、著者らはBLEU、段落レベルの専用テストセット、手動評価の3つの観点から比較実験を行った。実験は英語とロシア語のタスクで実施され、使用されたデータセットはオープンデータセット OpenSubtitles2018 でした。

表1はDcoRepairの比較実験結果を示しています。このうちベースラインはTransformerベースモデルを採用しており、CADec[7]は2段階の章レベル翻訳モデルである。同時に、文章を後編集することで翻訳品質が向上するだけでなく、段落レベルの翻訳におけるDocRepairモデルの有効性を検証するために、文章レベルの修復モデルもトレーニングしました。 DocRepair は段落レベルの機械翻訳に効果的であり、文レベルの修復モデルよりも 0.5 BLEU 高く、ベースラインおよび CADec と比較して 0.7 BLEU の改善が見られることがわかります。

人間による評価では、DocrePair モデルが入力を完全にコピーしたケースを除いて、一般的なテスト セットから 700 個の例が使用されました。表 2 に示すように、サンプルの 52% は手動で同じ品質であると注釈が付けられ、残りのサンプルのうち 73% は DocrePair からの出力の方が優れていると判断され、モデルの有効性も確認されました。

段落レベルの翻訳における特定の問題に対するDocRepairの有効性を分析するために、著者らは英語-ロシア語の段落レベルの翻訳現象のために特別に構築されたデータセット[9]でそれを検証した。結果を表3に示す。 deixis は文間の参照問題を表し、lex.c はテキスト内のエンティティ翻訳の一貫性問題を表し、ell.infl と ell.VP はそれぞれソース言語には含まれるがターゲット言語には含まれない名詞形と動詞省略現象に対応します。

DocRepair は参照、語彙選択、名詞形態省略の問題では明らかに優位性がありますが、動詞省略の問題では DocRepair モデルは CADec よりも 5 パーセントポイント低くなります。考えられる理由は、DocRepair モデルがターゲット言語のみに依存しており、ラウンドトリップ方式を使用して構築されたトレーニング セットには動詞が欠落しているサンプルがほとんど含まれていないため、モデルが正しい予測を行うことが困難になっていることです。

単一言語データの限界を検証するために、著者らは DocRepair モデル上でさまざまなデータ構築方法の比較実験を実施しました。結果を表 4 に示します。一方向とは、ラウンドトリップの最初のステップをバイリンガル データのソース言語に置き換える逆のプロセスを指します。一般的には片道方式の方が往復方式よりも優れていることがわかりますが、往復方式にとって最も難しい問題は動詞の省略です。

4. まとめ

この研究では、機械翻訳の結果を修正し、段落レベルの不一致を解決するために、ターゲット言語に完全に基づいた DocRepair モデルを提案しています。同時に、特定の段落レベルの問題における DcoRepair のパフォーマンスが分析され、単一言語データとラウンドトリップ構築方法のみに依存することの限界が指摘されています。

これまでの研究は、主にデコード処理中に文脈情報を統合する方法に焦点を当ててきましたが、段落レベルのバイリンガル データの不足によりパフォーマンスが制限されることがよくあります。この研究は、バイリンガルデータの不足という問題を回避するための新しいアイデアを提供しますが、同時に新しい問題も生じます。段落レベルの翻訳の目的は、従来の文レベルの翻訳で文間の文脈情報が失われる問題を解決することです。このポスト編集方法では、ターゲット側の文脈の一貫性のない翻訳結果セットのみを使用して、ソース言語への配慮が欠けている単一言語修正モデルを通じて一貫した結果を得ることができます。著者は、バイリンガルが不足している場合、ソース言語のコンテキスト情報をより適切に導入する方法も興味深い問題であると考えています。

参考文献

[1] Voita、Elena、Rico Sennrich、Ivan Titov。「ニューラル機械翻訳のためのコンテキスト認識型単一言語修復」arXivプレプリントarXiv:1909.01383 (2019)。

[2] Vaswani、Ashish、et al.「必要なのは注意力だけ」神経情報処理システムの進歩。2017年。

[3] ハッサン・ハニー他「中国語から英語へのニュース自動翻訳で人間と同等の成果を達成する」arXivプレプリントarXiv:1803.05567 (2018)。

[4] Voita, E., Serdyukov, P., Sennrich, R., & Titov, I. (2018). 文脈認識ニューラル機械翻訳がアナフォラ解決を学習する。arXivプレプリントarXiv:1805.10163。

[5] Zhang, J., Luan, H., Sun, M., Zhai, F., Xu, J., Zhang, M., & Liu, Y. (2018). ドキュメントレベルのコンテキストによるトランスフォーマー翻訳モデルの改善。arXiv プレプリント arXiv:1810.03581。

[6] Xiong, H., He, Z., Wu, H., & Wang, H. (2019年7月)。談話ニューラル機械翻訳のための一貫性のモデリング。AAAI人工知能会議論文集(第33巻、7338-7345頁)。

[7] Voita, E., Sennrich, R., & Titov, I. (2019). 「文脈上、良い翻訳が間違っている場合:文脈認識型機械翻訳は指示語、省略語、語彙の結束性を改善します」arXivプレプリントarXiv:1905.05979.

<<:  最先端のディープラーニングデバイスのベンチマーク:Nvidia Jetson Nanoが勝利

>>:  新しいAIプログラミング言語はディープラーニングを超える

ブログ    
ブログ    

推薦する

「手抜きアルゴリズム」は大企業をターゲットにしており、これがそれだ

[[342088]]基本的なデータ構造の統合は、大規模システムの基礎となります。たとえば、Redis...

デジタルマーケティング: AI はどのようにして人間の行動パターンを「見抜く」のでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

OpenAIの取締役会が数秒で後悔!ウルトラマン、CEOに復帰要請

たった1日で、OpenAIの取締役会は劇的に変化しました。最新のニュースによると、ウルトラマンがCE...

...

...

人工知能技術は成熟しており、AI音声業界は幅広い発展の見通しを迎えている

新しいインフラの波の下で、業界のデジタル変革は本格化しています。この過程で、AI音声は近年最も成熟し...

...

2020 年に爆発的に増加する 9 つの AI マーケティング トレンド

マーケティングに AI を使用すると、代理店の専門家の作業がさまざまな点で楽になります。消費者に合わ...

TensorFlow を使用した ML モデルの実装と最適化: 1 秒あたり 3 億回の予測

[[425184]] TensorFlow は最も広く使用されている機械学習フレームワークの 1 つ...

AIチップと人工知能産業は密接に連携している

[[355495]]人類社会は情報化から知能化へと移行しています。人工知能は知能化を実現するための重...

最新の軌道予測の概要:基本的な定義からさまざまな方法と評価まで

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ChatGPTを忘れてください。この新しいAIアシスタントは人々の働き方を永遠に変えるでしょう

翻訳者 |ブガッティレビュー | Chonglou私はしばらくの間ChatGPTとBardを使用して...

ScalableMap: オンラインで長距離ベクトル化された高精度マップ構築のためのスケーラブルなマップ学習

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

...