マイクロソフトが大きなマイルストーンを発表：中国語から英語への機械翻訳が人間の翻訳に匹敵するようになった

最近、マイクロソフトリサーチアジアの公式サイトから、同社の研究チームが、同社が開発した最新の機械翻訳システムが、一般ニュース報道テストセットnewstest2017の中国語-英語テストセットにおいて、人間の翻訳に匹敵するレベルに達したと発表したことが分かりました。

[[222700]]

ニュース報道の翻訳品質と正確さにおいて人間の翻訳者に匹敵する初の翻訳システムだと言われています。

システムモデルには、Microsoft Research Asia が開発したデュアルラーニング、審議ネットワーク、共同トレーニング、一貫性仕様のテクノロジが含まれています。機械翻訳は、自然言語処理の分野における最も困難な研究課題の 1 つです。

「これは、自然言語処理における最も困難な課題における大きな進歩です」と、マイクロソフトの音声、自然言語、機械翻訳の取り組みを率いるマイクロソフト技術フェローの Xuedong Huang 氏は語ります。「機械翻訳で人間レベルのパフォーマンスを達成することは誰もが夢見ることなのですが、これほど早く実現するとは思っていませんでした。」

[[222701]]

newstest2017 ニュースレポートテストセットは、産業界と学界のパートナーによって共同開発され、昨年秋の WMT17 カンファレンスでリリースされたと報告されています。翻訳結果が正確で、人間による翻訳レベルに達していることを確認するために、Microsoft の研究チームはバイリンガル言語コンサルタントを招き、Microsoft の翻訳結果と 2 つの独立した人間による翻訳結果を比較し、評価しました。

この画期的な進歩は大きな意義を持つが、研究者らは、これは人間が機械翻訳の問題を完全に解決したことを意味するのではなく、最終目標に一歩近づいたということに過ぎないことを皆に思い出させている。マイクロソフトリサーチアジア副社長兼自然言語コンピューティンググループ責任者の周明氏は、WMT17テストセットの翻訳結果が人間のレベルに達したことは喜ばしいことだが、リアルタイムのニュース報道でのシステムのテストなど、解決すべき課題はまだたくさんあると述べた。

このシステムに含まれる 4 つの主要なテクノロジは次のとおりです。

デュアルラーニング:

二重学習の発見は、現実には意味のある実用的な人工知能タスクがペアで現れることが多いという事実によるものです。2 つのタスクは互いにフィードバックし合い、より優れたディープラーニングモデルをトレーニングすることができます。たとえば、翻訳の分野では、英語から中国語への翻訳だけでなく、中国語から英語への翻訳も重要です。音声の分野では、音声認識と音声合成の両方が重要です。画像の分野では、画像認識と画像生成もペアで登場します。さらに、対話エンジンや検索エンジンなどのシナリオでは、二重のタスクが存在します。

一方では、特殊な二重構造により、2 つのタスクは相互にフィードバックを提供することができ、このフィードバック情報を使用してディープラーニングモデルをトレーニングできます。つまり、人間がラベル付けしたデータがなくても、二重構造でディープラーニングを実行できるのです。一方、2 つのデュアルタスクは互いの環境として機能することができるため、実際の環境と対話する必要はありません。2 つのデュアルタスク間の相互作用により、効果的なフィードバック信号が生成されます。そのため、この二重構造を駆使することで、「訓練データはどこから来るのか、環境とのインタラクションをどのように継続していくのか」といったディープラーニングや強化学習のボトルネックが解消されることが期待されます。

図: 二重教師なし学習フレームワーク

審議ネットワーク:

「追考」という言葉は、人間が読書や文章の執筆などの作業をするとき、作業が終わった後、すぐに終わらせず、何度も考え続けるという行動から生まれたものと考えられます。 Microsoft Research Asia の機械学習グループは、このプロセスを機械学習に適用しました。審議ネットワークには 2 段階のデコーダーがあり、第 1 段階のデコーダーは元のシーケンスをデコードして生成するために使用され、第 2 段階のデコーダーは審議プロセスを通じて元の文を洗練して装飾します。後者はグローバル情報を理解し、機械翻訳では第 1 段階で生成された文章に基づいて、より良い翻訳結果を生成できます。

図: ツイカオネットワークのデコードプロセス

合同トレーニング:

この方法は、ソース言語からターゲット言語への翻訳 (ソースからターゲット) の学習と、ターゲット言語からソース言語への翻訳 (ターゲットからソース) の学習を組み合わせたものと考えることができます。中国語-英語翻訳と英語-中国語翻訳はどちらも、トレーニングに初期の並列データを使用します。トレーニングの各反復中に、中国語-英語翻訳システムは中国語の文を英語の文に翻訳して新しい文のペアを取得し、それを英語-中国語翻訳システムのデータセットに追加することができます。同様に、このプロセスは逆方向にも実行できます。この双方向の融合により、2 つのシステムのトレーニングデータセットが大幅に増加するだけでなく、精度も大幅に向上します。

図: ソース言語からターゲット言語への翻訳 (ソースからターゲット) P(y|x) とターゲット言語からソース言語への翻訳 (ターゲットからソース) P(x|y)

合意の正規化:

翻訳結果は、左から右へ、または右から左へ順番に生成できます。この仕様は、左から右への翻訳と右から左への翻訳の結果を制限します。 2 つのプロセスで同じ翻訳が生成される場合、結果が異なる場合よりも信頼性が高くなります。この制約は、ニューラル機械翻訳のトレーニングプロセス中に適用され、システムがこれら 2 つの相反するプロセスに基づいて一貫した翻訳結果を生成するように促します。

<<: Googleはディープラーニングを使ってCPUを強化することを提案：コンピューターをどんどん高速化する

>>: 未来の超人工知能はどれほど恐ろしいものになるのでしょうか？この記事を読んだら黙ってしまうかもしれません！