Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Google の 130 億パラメータの多言語モデル mT5 が利用可能になり、101 言語への容易な移行が可能になりました。

Facebook は多言語機械翻訳モデル「M2M-100」をオープンソース化したばかりだが、今度は Google もこれに加わった。 Googleは、T5に基づくmT5多言語モデルが正式にオープンソース化されたと発表した。最大のモデルには130億のパラメータがあり、FacebookのM2Mと比較すると、パラメータは少なく、サポートする言語は多い。

[[348972]]

数日前、Facebook は 100 言語間で翻訳できるモデル M2M-100 をリリースしました。翻訳は Google の得意分野なので、これは Google を不安にさせました。

ちょうど今、Google は一連の自然な英語処理タスクでさまざまな SOTA を打ち負かした mT5 というモデルもリリースしました。

あなたが投稿すれば、私も投稿します。あなたは 100 種類をサポートし、私は 101 種類をサポートします。 (これ以上は意味がないですが、勢いとしては負けられないですね)

mT5はGoogleのT5モデルの多言語版です。トレーニングデータセットは101の言語をカバーし、3億から130億のパラメータが含まれています。パラメータの数で言えば、確かに非常に大規模なモデルです。

多言語モデルはAIへの架け橋だが、「有害な」出力を避けるのは難しい

現在、世界には体系的な言語が約7,000存在しています。コンピュータービジョンや音声認識などの分野では人工知能が人間を超えていますが、それは少数の言語に限られています。

汎用 AI 機能を小さな言語に移行しようとするのは、ほとんどゼロから始めるようなもので、労力に見合うものではありません。

そのため、言語間は AI 機能の移転にとって重要な架け橋となっています。

多言語人工知能モデル設計の目標は、世界のほとんどの言語を理解できるモデルを構築することです。

多言語 AI モデルは、類似の言語間で情報を共有し、データとリソースへの依存を減らし、少数ショットまたはゼロショットの学習を可能にします。モデルのサイズが大きくなるにつれて、より大きなデータセットが必要になることがよくあります。

C4 は、公開 Web サイトから取得した約 750 GB の英語テキストのコレクションです。mC4 は C4 のバリエーションです。C4 データセットは主に英語のタスク用に設計されています。mC4 は過去 71 か月間の Web ページ データを収集し、107 の言語をカバーしています。これは、C4 が使用するソース データよりもはるかに多くのデータです。

mC4 のさまざまな言語の Web ページ数

言語モデルがデータセット内に存在するバイアスを増幅する可能性があるという証拠があります。

一部の研究者は、現在の機械学習技術では「有害な」出力を避けることはほとんど不可能だと主張しているが、Google の研究者は、データ内の極端な言語を含むページをフィルタリングしたり、cld3 を使用してページの言語を検出したり、信頼度が 70% 未満のページを直接削除したりするなど、mT5 の偏りを減らすよう努めてきた。

mT5: 25万語の語彙を使用する多言語データサンプリング戦略が鍵

mT5 のモデル アーキテクチャとトレーニング プロセスは、T5 のものと非常によく似ています。mT5 は、GeGLU 非線形性 (Shazeer、2020) の使用、大規模モデルで dff ではなく dmodel をスケーリングすることで T5 を改善すること、情報損失なしでラベルなしデータのみで事前トレーニングすることなど、T5 のいくつかの手法に基づいています。

多言語モデルのトレーニングで最も重要なポイントは、各言語からデータをどのようにサンプリングするかです。

ただし、この選択はゼロサムゲームです。リソースの少ない言語が頻繁にサンプリングされると、モデルが過剰適合する可能性があります。一方、リソースの多い言語が十分にトレーニングされていない場合は、モデルの一般化が制限されます。

そこで研究チームは、Devlin、Arivazhaganらが使用した方法を採用し、確率p(L)∝|L|^αに応じてリソースが少ない言語をサンプリングしました。ここで、p(L) は事前トレーニング中に特定の言語からサンプリングされる確率、|L| は言語のサンプル数、α はハイパーパラメータです。Google は実験を通じて、α が 0.3 の場合に最も効果的であることを発見しました。

より多くの言語に対応するために、mT5 では語彙が 250,000 語に増加しました。 T5 と同様に、モデルのトレーニングには SentencePiece と wordPiece が使用されます。

文章

サンプリング後に一部の文字がカバーされない場合はどうなりますか?

中国語などの大きな文字セットを持つ言語に対応するために、チームは 0.99999 文字の範囲を使用しましたが、SentencePiece の「バイト バックオフ」機能も有効にして、任意の文字列を一意にエンコードできるようにしました。

結果をより直感的にするために、研究者らは、主に数十の言語をサポートするモデルを中心に、既存の大規模な多言語事前トレーニング済み言語モデルと簡単に比較しました。

mT5はさまざまなSOTAに特化していますが、ベンチマークは必ずしもその強さを表すものではありません

2020年10月時点で、実験で最大のmT5モデルは130億のパラメータを持ち、XTREME多言語ベンチマークの5つのタスク、14の言語をカバーするXNLI派生タスク、それぞれ10、7、11の言語を含むXQuAD、MLQA、TyDi QA/読解ベンチマーク、および7つの言語でのPAWS-X言い換え認識を含む、テストされたすべてのベンチマークを上回りました。

実験結果によると、mT5 モデルは、読解力や機械による質問応答などのさまざまなベンチマーク テストにおいて、以前の事前トレーニング済み言語モデルよりも優れていることがわかりました。

ベンチマークが実稼働環境でのモデルのパフォーマンスを適切に反映できるかどうかは別の問題です。

事前トレーニング済みの言語モデルをテストする最も簡単な方法は、オープンドメインの質問応答を使用して、トレーニング済みのモデルがこれまでに見たことのない新しい質問に答えられるかどうかを確認することです。現在、GPT-3 のような強力なモデルでも、無関係な回答が返されることがよくあります。

しかし、Google の研究者は、mT5 は複雑なモデリング技術を必要としない強力なモデルへの一歩であると主張しています。

全体として、mT5 は、言語間表現学習の重要性を示し、フィルタリング、並列データ、またはその他のチューニング手法を通じて言語間能力転送を実現することが可能であることを示しています。

T5 から派生したこのモデルは、多言語環境に完全に適しています。

<<:  分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

>>:  企業はどのように AI を活用してビジネスの成長を促進できるのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

アリコロニーアルゴリズムの理論と実践ガイド

[[170615]]数年前、私が修士号を取得するために勉強していたとき、大学にアリコロニーアルゴリズ...

...

スマートホームからのプライバシー漏洩が心配ですか?エッジAIがあなたを助けてくれることを恐れないでください

アレクサ、私の話を盗み聞きしてるの? [[330887]]私はいつもAmazon Echoにこの質問...

ディープラーニングを実践するための7つのステップ

私たちの仕事では、「ディープラーニングの学習はどこから始めればよいですか?」という質問をよく受けます...

...

専門家の洞察: AI を活用して配送をスピードアップする方法

毎分250人の赤ちゃんが生まれ、世界では4回の地震が発生し、シンガポール港では1,000トンを超える...

AIの未来: データだけでは不十分

特定の問題を解決するための最適な技術としての人工知能 (AI) に対する熱意は否定できず、注目に値し...

...

形状精度の高い 3D 認識画像合成のためのシェーディング ガイド付き生成暗黙モデル

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...

たった2枚の写真でAIは完全なモーションプロセスを生成できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

機械学習のプライバシー研究における新たな進歩: データ強化のリスクは過小評価されており、新しいアルゴリズムは次元依存性を「克服」します

編集者注: 今日、データは人工知能のイノベーションを推進する中核的な要素です。ただし、データのセキュ...

11 の基本的なニューラル ネットワーク アーキテクチャの視覚的な説明

標準、再帰、畳み込み、オートエンコーダネットワークディープラーニングの急速な発展により、多種多様なタ...

Facebookは人工知能を使ってコンテンツレビューの優先順位を決める

海外メディアによると、フェイスブックは機械学習アルゴリズムの使用を増やし、AIを使ってコンテンツの重...