500億のパラメータ、103の言語をサポート: Googleが「グローバルテキスト翻訳」モデルを発表

並列データが不足しているため、小規模言語の翻訳は常に大きな問題となっていました。 Google の研究者らは、103 の言語を翻訳できる大規模な多言語ニューラル機械翻訳モデルを提案し、データが豊富な言語とデータが乏しい言語の両方の翻訳において大幅なパフォーマンスの向上を実現しました。彼らは 250 億の文のペアをトレーニングし、500 億を超えるパラメータを持っていました。

[[278990]]

過去数年間、ニューラル機械翻訳 (NMT) の開発により、機械翻訳 (MT) システムの品質が大幅に向上し、世界中の言語の壁が打ち破られました。しかし、NMT の成功は主に教師ありトレーニングデータによるものです。では、データがほとんどまたはまったくない言語についてはどうでしょうか?多言語 NMT は、「1 つの言語からの信号を学習すると、他の言語の翻訳品質が向上するはず」という帰納的バイアスを備えた効果的なソリューションです。

多言語機械翻訳では、1 つの言語モデルを使用して複数の言語を処理します。データの少ない言語に対する多言語トレーニングの成功は、自動言語認識やテキスト読み上げなどのシステムに応用されています。 Googleの研究者らはこれまで、各言語のトレーニングデータの量を制御しながら、単一のニューラルネットワークが学習できる言語の数を増やすことを検討してきた。しかし、すべての制約が取り除かれたら何が起こるでしょうか?利用可能なすべてのデータを使用して、たとえデータのサイズ、スクリプト、複雑さ、ドメインが異なっていても、単一のモデルをトレーニングできますか?

「大規模多言語ニューラル機械翻訳の現状：調査結果と課題」と題された論文とその後のいくつかの論文で、Google の研究者は、500 億を超えるパラメータを使用して、100 を超える言語と英語の間の翻訳である 250 億を超える文章ペアで NMT モデルをトレーニングしました。彼らは、データが豊富な言語とデータが乏しい言語の両方で大幅なパフォーマンスの向上を達成し、単一のドメイン/言語に簡単に適応でき、言語間のダウンストリーム移行タスクに効果的に適用できる、大規模多言語ニューラル機械翻訳方式 M4 を取得しました。

大規模多言語機械翻訳

言語間のデータの偏りは NMT タスクにおける大きな課題ですが、この偏りは、ある言語でのトレーニングから得られた情報を他の言語での翻訳に適用できる、転移を研究するための理想的なシナリオも生み出します。フランス語、ドイツ語、スペイン語などのデータが豊富な言語は、数十億の並列コーパスを提供し、分布の一方の端を占めています。一方、ヨルバ語、シンド語、ハワイ語などのデータの少ない言語は、数万のコーパスしか提供せず、分布のもう一方の端を占めています。

すべての言語ペアのデータ分布 (対数) と、各特定の言語ペアでトレーニングされたバイリンガルベースラインの相対的な翻訳品質 (BLEU スコア)。

研究者らは、利用可能なすべてのデータ（103 言語から 250 億のサンプル）を使用してトレーニングした後、データが少ない言語で強い肯定的な転移傾向が見られ、30 を超える言語で翻訳品質が大幅に向上し、データ分布の末端で平均 BLEU スコアが 5 ポイント向上したことを観察しました。結果は既知ですが、バイリンガルベースライン (つまり、特定の言語ペアのみでトレーニングされたモデル) と、単一のバイリンガルモデルと同様の表現力を持つ単一の多言語モデルとの比較であるため、非常に有望です。この発見は、大規模多言語モデルが効果的に一般化でき、多数の言語にわたる表現の類似性を捉えることができることを示唆しています。

単一の大規模多言語モデルとバイリンガルベースラインモデル間の翻訳品質の比較。

EMNLP 2019 の論文「大規模な多言語 NMT 表現の調査」では、Google の研究者が複数の言語における多言語モデルの表現機能を比較しました。彼らは、多言語モデルが外部制約なしに言語的に類似した言語の共有表現を学習できることを発見し、これらの類似性を活用する長年の直感と実験結果を検証しました。

論文「大規模多言語ニューラル機械翻訳の言語間有効性の評価」では、研究者らは、下流のタスクにおける言語間転送におけるこれらの学習された表現の有効性をさらに実証しました。

表現の類似性に基づいて、全 103 言語のエンコーディング表現のクラスタリングを視覚化します。異なる色は異なる言語ファミリーを表します。

大規模ニューラルネットワークの構築

データの少ない言語の数が増えると、データが豊富な言語の翻訳品質が低下し始めます。この劣化は、タスク間の競合と転送の一方向の性質（つまり、データが豊富な言語からデータの少ない言語へ）によって引き起こされるマルチタスク設定で観察されます。研究者たちは、この負の転移問題に対処するために、より適切に学習して能力制御を実装できるアルゴリズムを研究しています。その過程で、ニューラルネットワークモデルのパラメータ数を増やして表現力を向上させることで、データが豊富な言語の翻訳品質も向上しました。

ニューラルネットワークのパワーを高めるには、レイヤーの追加、非表示表現の幅の拡大など、他にもいくつかの方法があります。より深い翻訳モデルをトレーニングするために、研究者は GPipe を使用して、60 億を超えるパラメータを持つ 128 層のトランスフォーマーをトレーニングしました。モデル機能の向上により、すべての言語の翻訳品質が大幅に向上し、平均 BLEU スコアが 5 ポイント増加しました。また、研究者らは、深さと幅のトレードオフ、トレーニングの課題、Transformer を 1,500 層以上、840 億個のパラメータに拡張できるようにした設計上の選択など、ディープネットワークのその他の特性も研究しました。

深さを拡張することはモデル機能を向上させる 1 つの方法ですが、問題のマルチタスクの性質を活用できるアーキテクチャを探索することも、非常に実行可能な補完的なアプローチです。研究者らは、元のフィードフォワード層を疎ゲートの専門家の混合に置き換えることでトランスフォーマーのアーキテクチャを変更し、モデルの機能を大幅に向上させ、500億のパラメータを正常にトレーニングして転送できるようになり、翻訳の品質がさらに向上しました。

103 のバイリンガル翻訳ベースラインと比較すると、Google の新しいアプローチでは、単一の多言語モデルの容量 (パラメータの数) が増加し、翻訳の品質が向上します。

M4モデルの実用化

言語ドメインや移行タスクごとに、大規模なモデルをトレーニングし、大量の計算能力を費やすことは非常に非経済的です。 Google のアプローチでは、調整可能な容量レイヤーを使用して、元のモデルを変更せずに新しいモデルを特定の言語やドメインに適応させることで、これらのモデルをより実用的なものにしています。

見通し

研究によれば、21世紀末までに、現在世界中で使用されている言語のうち少なくとも7,000言語は存在しなくなるだろうとのことです。多言語機械翻訳システムはこれらの言語を救うことができるでしょうか? Google は、M4 がさらに 1,000 の言語への翻訳への足がかりになると考えています。このような多言語モデルから始めて、並列コーパスがなくても、機械翻訳を新しい言語、ドメイン、下流のタスクに簡単に拡張できます。一般的な機械翻訳の方向性としては、多くの有望なソリューションがクロスドメインであるように思われ、多言語 NMT は、マルチタスク学習、メタ学習、ディープネットワークトレーニングなどの機械学習技術の理想的なテストベッドになりつつあります。

<<: サンダーソフト、AIoT産業・大学・研究のボトルネックを打破するTurboX AI Kit教育実験プラットフォームをリリース

>>: 人工知能への恐怖とその対処法5つ