0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

0 コーパスで「ラベル付け」してより良い多言語翻訳結果を得る方法

[[409976]]

今日の多言語翻訳モデルのほとんどは、英語中心のデータセットで統合モデルをトレーニングし、言語ラベルを追加することでモデルに翻訳する言語を指示します。このモデルは予測時に、英語以外の文章に別の英語以外の言語タグを直接追加して直接翻訳できるため、トレーニング中にソース言語とターゲット言語が見られなくてもモデル翻訳を実現できます。これはいわゆるゼロショット多言語翻訳です。

言語タグを追加する方法はたくさんあります。Volcano 翻訳チームの研究者は、実験研究を通じて、異なる言語タグは監督指示の効果にほとんど影響を与えないが、ゼロショット効果には非常に大きな影響を与えることを発見しました。この現象は複数のデータセットで検証されており、IWSLT17 では 14.02 BLEU、Euporal では 24.24 BLEU、TED トークでは 8.78 BLEU の差がありました。この研究はACL 2021の調査結果に採用されました

論文アドレス: https://arxiv.org/abs/2106.07930

研究の背景と動機

多言語翻訳では、言語タグを追加する方法が多数あり、一般的には、言語タグを追加する方法が異なってもモデルのパフォーマンスには影響がないと考えられています。しかし、言語タグが翻訳モデルに影響を与えるかどうかを体系的に研究した研究者はいません。この投稿では、言語タグを追加する一般的な 4 つの方法を比較します。

表1 4つの異なる言語タグ

表 1 に示すように、これら 4 つの方法では、ソース言語タグとターゲット言語タグが、ソース文の先頭またはターゲット文の先頭に異なる方法で追加されます。

表2 データセットの詳細

表2に示すように、この記事ではIWSLT17、Euporal、TEDトークの3つのデータセットを選択しています。これら3つのデータセットは、言語数とデータセットのサイズに比較的大きな違いがあります。この記事では、上記の 4 つの異なる言語ラベルに基づいて、これら 3 つのデータセットでまったく同じ構成の多言語翻訳モデルをトレーニングしました。

実験結果

表3 実験結果

表 3 に示すように、次のことがわかります。

1. 言語タグやデータセットが異なっていても、教師あり学習ではモデルのパフォーマンスは基本的に同じです。

2. ゼロショット方向の場合:

a. 異なる言語ラベルはモデルのパフォーマンスに大きな影響を与え、T-ENC は 3 つのデータセットで他の 3 つのラベルを一貫して上回りました。IWSLT17 では 14.02 BLEU、Euporal では 24.24 BLEU、TED トークでは 8.78 BLEU でした。

b. 言語ラベルが異なると、オフターゲット比率も異なります(オフターゲットとは、言語Xに翻訳すると、別の言語に翻訳される状況を指します)。基本的に、T-ENCのオフターゲット比率は他のものよりも小さく、これは基本的にゼロショットでのモデルのパフォーマンスと一致しています。

分析する

では、この現象の原因は何でしょうか?この記事では、この現象を 3 つの側面から説明しようと試み、TED データセットで実験を行います。

1. ターゲット言語が同じ場合、言語タグの追加方法は、エンコーダーを通過した後の異なる言語の文章の表現の一貫性に影響しますか?

2. T-ENC は他の方法よりもオフターゲット比率を低く抑えることができます。これは、予測中に言語ラベルに注意を払うアテンション メカニズムが優れているためでしょうか。

3. 翻訳モデルの各層で、異なる言語の同じ意味の文章はどの程度類似しているか?

エンコーダ表現の一貫性

上図はt-SNEを使ってエンコーダ出力の次元を削減し、kdeを使って描いた分布図です。ターゲット言語が同じ場合の異なる言語の文章の分布を示しています。T-ENCの異なる言語間のエンコーダ表現分布がより一貫していることがわかります。これは、T-ENC がモデルが言語に依存しないエンコーダー表現を学習するのに役立つことを示しています。

オフターゲットの問題を軽減する

上の図は、ケーススタディを通じて、異なる言語ラベルの下でロシア語の文をイタリア語の文に翻訳するときに、モデルがイタリア語のラベルにどのように注意を払っているかを示しています。明らかに、T-ENC を使用する場合、モデルはイタリア語のラベルに最も注意を払っており、これが T-ENC のオフターゲット比率が最も小さい理由をある程度説明できます。

さまざまなレベルでの類似点

上図のサブ図aは、英語とロシア語を除く18の言語からロシア語に翻訳した際に、異なる言語で同じ意味を持つ文章の表現の類似性を示しています。T-ENCの類似度曲線は常に他の言語ラベルより上にあることがわかります。これは、ターゲット言語が同じ場合、T-ENCの各層の表現が他の方法よりも一貫していることを示しています。

上図のサブ図bは、ロシア語から英語とロシア語以外の18の言語に翻訳されたときの、異なるターゲット言語での同じロシア語の文章の類似度を示しています。T-ENCの類似度曲線は、ほとんどの場合、他の言語のラベルの下にあることがわかります。これは、ターゲット言語が異なる場合、T-ENCがターゲット言語に関連する表現をより適切に生成できることを示しています。

要約する

この研究では、異なる言語ラベルが多言語ゼロショット翻訳に大きな影響を与えることを発見し、非常に異なるデータを持つ 3 つの異なるデータセットで実験を行いました。結果、異なる言語ラベルが多言語ゼロショット翻訳に大きな影響を与えることが検証され、T-ENC がゼロショットで他の言語ラベルよりも優れていることが示されました。同時に、この研究では、予測中にさまざまな言語タグがモデルの表現に与える影響を分析し、T-ENC はターゲット言語に関連しているがソース言語とは関連のない表現をより適切に取得できることを発見しました。

1. T-ENC は、エンコーダー後の異なるソース言語での文章の表現をより一貫したものにすることができます。

2. T-ENC の注意メカニズムは、ターゲット言語の言語タグにより適切に注意を払うことができます。

3. T-ENC のさまざまなレイヤーでの表現は、他の方法よりもターゲット言語との関連性が高くなります。

<<:  自然言語処理におけるAIの未来を探る

>>:  Swin Transformerをベースに、清華大学などがMoBY自己教師学習法のコードを提案し、オープンソース化されている。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIはすでにLeetCodeを実行できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

20以上のモバイルハードウェア、Int8超高速推論、エンドサイド推論エンジンPaddle Lite 2.0が正式にリリースされました

PaddlePaddleは今年8月、端末やエッジデバイス向けのエッジ推論エンジン「Paddle Li...

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

人生で、私たちは誰でもぼやけた画像に遭遇します。昔は、ぼやけた画像を復元することは不可能でした。PS...

ChatGPT が 1 周年を迎えました: 革新、論争、AI のブレークスルーの 1 年

テクノロジーの世界を永遠に変えたかもしれない GenAI チャットボットである OpenAI の C...

マルチエージェント強化学習の大規模モデルに関する予備的研究

1. 大規模マルチエージェント意思決定モデルの課題現実世界における多くの実際的な問題は、複数のエージ...

ディープラーニングの父、ヒントン:次世代ニューラルネットワーク

ディープラーニングの父ヒントン氏:次世代ニューラルネットワーク SIGIRは、情報検索の分野における...

ケビン・ケリーがAIブームを解説:超人的なAIを暴く5つの神話

人工知能は非常に人気が高まっているため、ニュースで報道される超知能に関する予測が実現可能なものなのか...

「無人運転」の技術的道筋

無人運転車が実際に走行するには、認識、意思決定、実行における技術的な問題を解決する必要があります。 ...

コンパニオン チップ: AI にとって賢い選択でしょうか?

半導体業界では長年にわたり、より多くのコンポーネントを単一のシステムオンチップ (SoC) に緊密に...

サイバー犯罪者はAIを利用してマルウェア攻撃ソフトウェアにサンドボックスを作成

2020 年に世界中の企業の 42% がサイバー攻撃を受けたことをご存知ですか? サイバー犯罪者が...

防衛分野で人工知能はどのような役割を果たすのでしょうか?

調査によると、人工知能技術は勢いを増しており、防衛産業にとって極めて重要であることが分かっています。...

中国の独立知的財産TianyuanディープラーニングエンジンとTensorFlowおよびPyTorchの比較を体験

[51CTO.com からのオリジナル記事] ディープラーニングを軸に早くから事業を開始した中国の ...

マイクロソフトの自動運転戦略:自動車を製造するのではなく、企業に技術サポートとクラウドサービスを提供する

ゼネラル・モーターズ傘下の自動運転車開発会社クルーズは、マイクロソフト、ゼネラル・モーターズ、ホンダ...

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

医療AIの将来に注目すべき3つのトレンド

COVID-19の流行、メンタルヘルスの危機、医療費の高騰、人口の高齢化により、業界のリーダーたちは...