Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は Google もこれに加わった。 Googleは、T5に基づくmT5多言語モデルが正式にオープンソース化されたと発表した。最大のモデルには130億のパラメータがあり、FacebookのM2Mと比較すると、パラメータは少なく、サポートする言語は多い。

[[348972]]

数日前、Facebook は 100 言語間で翻訳できるモデル M2M-100 をリリースしました。翻訳は Google の得意分野なので、これは Google を不安にさせました。

ちょうど今、Google は一連の自然な英語処理タスクでさまざまな SOTA を打ち負かした mT5 というモデルもリリースしました。

あなたが投稿すれば、私も投稿します。あなたは 100 種類をサポートし、私は 101 種類をサポートします。（これ以上は意味がないですが、勢いとしては負けられないですね）

mT5はGoogleのT5モデルの多言語版です。トレーニングデータセットは101の言語をカバーし、3億から130億のパラメータが含まれています。パラメータの数で言えば、確かに非常に大規模なモデルです。

多言語モデルはAIへの架け橋だが、「有害な」出力を避けるのは難しい

現在、世界には体系的な言語が約7,000存在しています。コンピュータービジョンや音声認識などの分野では人工知能が人間を超えていますが、それは少数の言語に限られています。

汎用 AI 機能を小さな言語に移行しようとするのは、ほとんどゼロから始めるようなもので、労力に見合うものではありません。

そのため、言語間は AI 機能の移転にとって重要な架け橋となっています。

多言語人工知能モデル設計の目標は、世界のほとんどの言語を理解できるモデルを構築することです。

多言語 AI モデルは、類似の言語間で情報を共有し、データとリソースへの依存を減らし、少数ショットまたはゼロショットの学習を可能にします。モデルのサイズが大きくなるにつれて、より大きなデータセットが必要になることがよくあります。

C4 は、公開 Web サイトから取得した約 750 GB の英語テキストのコレクションです。mC4 は C4 のバリエーションです。C4 データセットは主に英語のタスク用に設計されています。mC4 は過去 71 か月間の Web ページデータを収集し、107 の言語をカバーしています。これは、C4 が使用するソースデータよりもはるかに多くのデータです。

mC4 のさまざまな言語の Web ページ数

言語モデルがデータセット内に存在するバイアスを増幅する可能性があるという証拠があります。

一部の研究者は、現在の機械学習技術では「有害な」出力を避けることはほとんど不可能だと主張しているが、Google の研究者は、データ内の極端な言語を含むページをフィルタリングしたり、cld3 を使用してページの言語を検出したり、信頼度が 70% 未満のページを直接削除したりするなど、mT5 の偏りを減らすよう努めてきた。

mT5: 25万語の語彙を使用する多言語データサンプリング戦略が鍵

mT5 のモデルアーキテクチャとトレーニングプロセスは、T5 のものと非常によく似ています。mT5 は、GeGLU 非線形性 (Shazeer、2020) の使用、大規模モデルで dff ではなく dmodel をスケーリングすることで T5 を改善すること、情報損失なしでラベルなしデータのみで事前トレーニングすることなど、T5 のいくつかの手法に基づいています。

多言語モデルのトレーニングで最も重要なポイントは、各言語からデータをどのようにサンプリングするかです。

ただし、この選択はゼロサムゲームです。リソースの少ない言語が頻繁にサンプリングされると、モデルが過剰適合する可能性があります。一方、リソースの多い言語が十分にトレーニングされていない場合は、モデルの一般化が制限されます。

そこで研究チームは、Devlin、Arivazhaganらが使用した方法を採用し、確率p(L)∝|L|^αに応じてリソースが少ない言語をサンプリングしました。ここで、p(L) は事前トレーニング中に特定の言語からサンプリングされる確率、|L| は言語のサンプル数、α はハイパーパラメータです。Google は実験を通じて、α が 0.3 の場合に最も効果的であることを発見しました。

より多くの言語に対応するために、mT5 では語彙が 250,000 語に増加しました。 T5 と同様に、モデルのトレーニングには SentencePiece と wordPiece が使用されます。

文章

サンプリング後に一部の文字がカバーされない場合はどうなりますか?

中国語などの大きな文字セットを持つ言語に対応するために、チームは 0.99999 文字の範囲を使用しましたが、SentencePiece の「バイトバックオフ」機能も有効にして、任意の文字列を一意にエンコードできるようにしました。

結果をより直感的にするために、研究者らは、主に数十の言語をサポートするモデルを中心に、既存の大規模な多言語事前トレーニング済み言語モデルと簡単に比較しました。

mT5はさまざまなSOTAに特化していますが、ベンチマークは必ずしもその強さを表すものではありません

2020年10月時点で、実験で最大のmT5モデルは130億のパラメータを持ち、XTREME多言語ベンチマークの5つのタスク、14の言語をカバーするXNLI派生タスク、それぞれ10、7、11の言語を含むXQuAD、MLQA、TyDi QA/読解ベンチマーク、および7つの言語でのPAWS-X言い換え認識を含む、テストされたすべてのベンチマークを上回りました。

実験結果によると、mT5 モデルは、読解力や機械による質問応答などのさまざまなベンチマークテストにおいて、以前の事前トレーニング済み言語モデルよりも優れていることがわかりました。

ベンチマークが実稼働環境でのモデルのパフォーマンスを適切に反映できるかどうかは別の問題です。

事前トレーニング済みの言語モデルをテストする最も簡単な方法は、オープンドメインの質問応答を使用して、トレーニング済みのモデルがこれまでに見たことのない新しい質問に答えられるかどうかを確認することです。現在、GPT-3 のような強力なモデルでも、無関係な回答が返されることがよくあります。

しかし、Google の研究者は、mT5 は複雑なモデリング技術を必要としない強力なモデルへの一歩であると主張しています。

全体として、mT5 は、言語間表現学習の重要性を示し、フィルタリング、並列データ、またはその他のチューニング手法を通じて言語間能力転送を実現することが可能であることを示しています。

T5 から派生したこのモデルは、多言語環境に完全に適しています。

<<: 分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

>>: 企業はどのように AI を活用してビジネスの成長を促進できるのでしょうか?