概要: ニューラル機械翻訳 (NMT) は最近、標準ベンチマークで大きな成功を収めていますが、大規模な並列コーパスの不足は多くの言語ペアにとって重大な問題となっています。この問題を緩和するために、三角測量や半教師あり学習技術などいくつかの提案がありますが、それでも強力な言語間信号が必要です。本稿では、並列データを使用せず、単一言語コーパスのみを使用して、完全に教師なしで NMT システムをトレーニングする新しい方法を提案します。私たちのモデルは、教師なし埋め込みマッピングに関する最近の研究に基づいており、ノイズ除去とバック翻訳の組み合わせを使用して単一言語コーパスでトレーニングされた、わずかに修正された注意力エンコーダー/デコーダー モデルで構成されています。私たちのアプローチはシンプルですが、私たちのシステムは、WMT 2014 のフランス語から英語への翻訳とドイツ語から英語への翻訳でそれぞれ 15.56 と 10.21 の BLEU スコアを達成しました。このモデルは小規模な並列コーパスも使用でき、100,000 個の並列文ペアを使用した場合、それぞれ 21.81 と 15.24 の BLEU スコアを達成しました。私たちのアプローチは、教師なし NMT における画期的な進歩であり、将来の研究に新たな機会をもたらします。 図 1: システムアーキテクチャ。 言語 L1 の各文について、システムは 2 つのステップでトレーニングされます。ノイズ除去 (共有エンコーダーを使用してノイズの多いバージョンの文をエンコードし、L1 デコーダーを使用して再構築する確率を最適化)、および逆翻訳 (推論モードで文を翻訳し (共有エンコーダーを使用してエンコードし、L2 デコーダーを使用してデコード)、共有エンコーダーを使用してターゲット文をエンコードし、L1 デコーダーを使用してソース文を復元する確率を最適化)。これら 2 つのステップは、L1 と L2 をトレーニングするために交互に実行されます。L2 のトレーニング ステップは、L1 のトレーニング ステップと同様です。 システムアーキテクチャ 図 1 に示すように、提案するシステムは、アテンション メカニズムを備えた比較的標準的なエンコーダー/デコーダー アーキテクチャを使用します (Bahdanau ら、2014)。具体的には、エンコーダーでは 2 層の双方向 RNN を使用し、デコーダーでは別の 2 層の RNN を使用します。すべての RNN は、600 個の隠れユニットを持つ GRU ユニット (Cho et al.、2014) を使用し、埋め込み次元は 300 に設定されています。注意メカニズムに関しては、一般的なアライメント関数を備えたLuongら(2015b)が提案したグローバル注意法を使用します。ただし、当社のシステムは、次の 3 つの点で標準の NMT とは異なり、教師なし方式でトレーニングできます。 1. 二重構造。 NMT システムは通常、特定の翻訳方向 (例: フランス語から英語、または英語からフランス語) 向けに構築されますが、私たちは機械翻訳のバイナリ特性 (He et al., 2016; Firat et al., 2016a) を活用し、両方向 (例: フランス語 ↔ 英語) に同時に翻訳します。 2. 共有エンコーダー。私たちのシステムでは、両方の言語で共有されるエンコーダーを 1 つだけ使用します。たとえば、フランス語と英語は同じエンコーダーを使用します。このユニバーサル エンコーダーは、入力テキストの言語に依存しない表現を生成することを目的としており、各デコーダーはそれを対応する言語に変換します。 3. エンコーダーへの埋め込みを修正しました。ほとんどの NMT システムは埋め込みをランダムに初期化し、トレーニング中に更新しますが、エンコーダーではトレーニング中に固定されたままの事前トレーニング済みのクロスリンガル埋め込みを使用します。このようにして、エンコーダーは言語に依存しない単語レベルの表現を取得し、より大きなフレーズ表現を構築するために単語レベルの表現を合成する方法を学習するだけで済みます。セクション 2.1 で述べたように、並列コーパスを活用して言語間埋め込みをトレーニングするさまざまな教師なし手法があり、これは私たちのシナリオでも実行可能です。注: 埋め込みは複数言語に対応していますが、言語ごとに個別の語彙を使用する必要があります。したがって、英語とフランス語の両方に存在する「椅子」(フランス語で「筋肉」を意味する)という単語は、両方のベクトルが共通の空間に存在するにもかかわらず、各言語で異なるベクトルを取得します。 監督なしのトレーニング NMT システムは通常、並列コーパスを使用してトレーニングされますが、単一言語コーパスしかないため、このような教師ありトレーニング方法はこのシナリオでは実行できません。ただし、上記のアーキテクチャでは、次の 2 つの戦略を使用して、システム全体を教師なし方式でトレーニングできます。 1. ノイズ除去 共有エンコーダーを使用して機械翻訳のバイナリ構造を活用し、提案されたシステムが入力を再構築するように直接トレーニングできるようにします。具体的には、システム全体を最適化して、共有エンコーダーを使用して特定の言語で入力文をエンコードし、その言語のデコーダーを使用してソース文を再構築することができます。両方の言語の埋め込みを言語に依存しない表現に結合することを学習する共有エンコーダーで、事前トレーニング済みのクロスリンガル埋め込みを使用することを考えると、各デコーダーはそのような表現を対応する言語に分解することを学習する必要があります。推論フェーズでは、ソース言語デコーダーをターゲット言語デコーダーに置き換えるだけで、システムはエンコーダーによって生成された言語に依存しない表現を使用して入力テキストの翻訳を生成できます。 ただし、対応するトレーニング プロセスは本質的に単純なコピー タスクであるため、上記の完璧な動作は大幅に減少します。このタスクに対する最善のソリューションでは、言語の内部構造をキャプチャする必要はありませんが、入力シーケンスのすべての要素を盲目的にコピーするだけの退化したソリューションも数多く存在します。この場合、システムが実行できる最善のことは、推論フェーズ中に単語ごとに置換を実行することです。 このような退化したソリューションを回避し、エンコーダが入力単語を言語に依存しない表現に合成することを真に学習できるようにするために、入力文にランダムノイズを導入することを提案します。このアイデアは、ノイズ除去オートエンコーダー (Vincent et al., 2010) と同じ基本原理を活用し、ノイズの多い入力文の元のバージョンを再構築するようにシステムをトレーニングするというものです (Hill et al., 2017)。これを実行するには、隣接する単語をランダムに交換して、入力文の語順を変更します。具体的には、N 個の要素を含むシーケンスに対して、このようなランダムスワップ操作を N/2 回実行します。したがって、正しい語順を復元するには、システムは言語の内部構造を学習する必要があります。同時に、システムが入力文の語順に過度に依存しないようにすることで、言語間での実際の語順の分散をより適切に示すことができるようになります。 2. 逆翻訳 ノイズ除去戦略にもかかわらず、上記のトレーニング手順は依然としていくつかの合成変更を伴う複製タスクであり、最も重要なのは、翻訳に両方の言語を考慮するのではなく、各変更に 1 つの言語のみが関係することです。単一言語コーパスのみを使用するという制限に違反することなく、実際の翻訳環境で新しいシステムをトレーニングするために、研究者らは、2016年にSennrichらが提案した逆翻訳手法を導入することを提案した。具体的には、このアプローチでは、特定の言語の入力文に対して、システムが貪欲なデコードを使用して推論モードで別の言語に翻訳します(つまり、共有エンコーダーと別の言語のデコーダーを使用します)。このアプローチを使用して、研究者は疑似並列コーパスを取得し、翻訳に基づいて元のテキストを予測するようにシステムをトレーニングしました。 表 1: newstest2014 におけるいくつかのシステムの BLEU スコア。教師なしシステムは News Crawl モノリンガル コーパスを使用してトレーニングされ、半教師ありシステムは News Crawl モノリンガル コーパスと News Commentary パラレル コーパスの 100,000 文ペアを使用してトレーニングされ、教師あり学習システム (比較用) は WMT 2014 のパラレル コーパスを使用してトレーニングされます。その中で、2016年にWuらが提案したGNMTは、単一モデルとしては最高のBLEUスコアを達成しました。 表 2: 提案されたシステムは、BPE を使用して newstest2014 のいくつかの文をフランス語から英語に翻訳します。 結論は この論文では、研究者らは教師なし手法を用いてニューラル機械翻訳システムをトレーニングする新しい方法を提案しています。これは、教師なしの言語間埋め込みに関する既存の研究 (Artetxe et al.、2017 年、Zhang et al.、2017 年) に基づいており、修正された注意深いエンコーダー/デコーダー モデルに組み込んでいます。固定されたクロスリンガル埋め込みを備えた共有エンコーダーを使用し、ノイズ除去と逆翻訳を組み合わせることで、単一言語コーパスのみを使用して NMT システムをトレーニングするという目標を達成します。 実験により、新しいアプローチの有効性が実証され、新しいアプローチは、標準的な WMT 2014 フランス語 - 英語およびドイツ語 - 英語ベンチマークで単語ごとの置換を実行するベースライン システムよりも大幅に優れた BLEU スコアを達成しました。また、新しいシステムのパフォーマンスを手動で分析して特徴付け、複雑な言語間関係をモデル化し、高品質の翻訳を生成できることを示しました。さらに、実験では、新しい方法を小規模な並列コーパスと組み合わせることでシステムのパフォーマンスをさらに向上できることも示されており、これはトレーニング データが不十分な場合に非常に役立ちます。 この新しい研究は、将来の研究に新たな機会をもたらします。この研究は教師なし NMT における画期的な進歩ではありますが、まだ改善の余地は大きく残っています。その中で、研究で比較に使用された教師あり NMT システムは業界最高のものではなく、新しい方法によってもたらされる修正によってもそのパフォーマンスが制限されることを意味します。したがって、研究者たちは次にこの直線性の原因を調査し、それを軽減しようとします。これらに直接対処するのは現実的ではないため、まずシステムを現在の方法で順次トレーニングし、次に主要なアーキテクチャの変更を元に戻し、最後に微調整を行うという 2 段階のプロセスを検討したいと考えています。さらに、研究者らは、文字レベルの情報をモデルに組み込むことを検討しており、これはトレーニング中に生じる十分性の問題の一部に対処するのに役立つ可能性があります。同時に、まれな単語、特に固有表現の問題が解決されれば、システムのパフォーマンスはさらに向上します。 |
PwCは、モノのインターネット(IoTAg)ベースの農業モニタリングがコネクテッドスマート農業の分野...
機械学習におけるデータバイアスとは、データセットの一部の要素が他の要素よりも重み付けされ、または高く...
10月10日、2019 AIIA人工知能開発者会議の記者会見が北京で開催されました。 2019年AI...
COVID-19の影響により、今年の新学期は例年とは少し様子が異なります。多くの学校や企業がハイブリ...
60年以上の発展を経て、人工知能は人々の仕事や日常生活に入り込み、影響を与えており、新たな一般技術と...
現在、中国ではデジタル革命が急速に進んでおり、デジタル変革は国内企業が課題に対処するための主な戦略と...
現在、カスタマーサービス業界は質的な変化を遂げており、AIインテリジェントテクノロジーがカスタマーサ...
2022 年の AI に関する大きな話題は、研究室や概念実証から生まれ、ビジネス価値を獲得するため...
2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...
この記事はWeChatの公開アカウント「Big Data DT」から転載したもので、著者はZhang...