研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコンテンツが機械翻訳(MT)によって生成されており、複数の言語にまたがるこれらの翻訳コンテンツの質は総じて低いことを発見した。研究チームは、これは大規模言語モデル(LLM)をトレーニングする際にデータの品質とソースを考慮することの重要性を浮き彫りにしていると強調した。

この調査では、機械生成コンテンツはリソースの少ない言語からの翻訳で普及しており、ウェブコンテンツの大部分を占めていることも判明した。

IT Home は、研究チームが機械翻訳コンテンツの特性をより深く理解するために、多次元 cc マトリックス (MWccMatrix) と呼ばれる巨大なリソースを開発したことに気づきました。このリソースには、90 の言語で 64 億の固有の文章が含まれており、相互に翻訳された文章のセットである翻訳タプルも含まれています。

調査では、大量のウェブコンテンツが主に機械翻訳を通じて複数の言語に翻訳されることが多いことが判明しました。このコンテンツは、リソースの少ない言語からの翻訳でよく見られるだけでなく、これらの言語のすべての Web コンテンツの大部分を占めています。

研究者らはまた、広告収入などの目的でコンテンツが複数の言語に翻訳される際に選択的な偏りがあることも指摘した。

この論文は次のように結論づけています。「機械翻訳技術は過去 10 年間で大幅に改善されましたが、依然として人間の品質には及びません。長年にわたり、当時利用可能な機械翻訳システムを使用して機械翻訳されたコンテンツが Web に追加されてきたため、Web 上の機械翻訳されたコンテンツの多くは、現代の基準からすると低品質である可能性があります。これにより、LLM モデルがより多くの「幻覚」を生成する可能性がありますが、選択バイアスにより、機械翻訳のエラーを考慮しなくてもデータ品質が低い可能性があることが示唆されています。データ品質は、書籍や Wikipedia の記事などの高品質のコーパスが複数回アップサンプリングされることが多い LLM トレーニングにとって非常に重要です。」

<<:  グラフを考慮した対照学習により多変量時系列分類が改善

>>: 

ブログ    

推薦する

Ant Financial が SOFAJRaft をオープンソース化: 製品グレードの Java Raft アルゴリズム ライブラリ

SOFAJRaftとは何ですか? SOFAJRaft は、 Raftコンセンサス アルゴリズムに基づ...

ゲームにおけるディープラーニングと AI

[[190049]]この記事は、4月27日にBig Data Talk WeChatコミュニティで...

AIによる顔の変形は危険だが、VRスキーは素晴らしい

[[402233]]市民がVRスキー体験。本紙(記者 陳龍)5月27日、2021年中国国際ビッグデー...

AI 開発の世界では、自然言語処理を真に習得することはどれほど重要ですか?

人工知能開発の分野で最も重要な目標は、自然言語処理 (NLP) を真に習得したシステムを作成すること...

2020 年のディープラーニング フレームワークの簡単な比較

ご存知のとおり、機械学習フレームワークの分野では、PyTorch と TensorFlow がそれぞ...

...

...

アマゾン ウェブ サービスが中国で新たな機械学習サービスを開始

[51CTO.com からのオリジナル記事]現在、ますます多くの企業が機械学習や人工知能に多額の資金...

顔認識技術の開発と実用的なソリューションの設計

顔認識技術は、Google、Facebook、Alibaba、Tencent、Baiduなどの国内外...

Arthur Bench に基づいて LLM 評価を実施するにはどうすればよいでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

誰もが知っておくべきAIのパイオニア14人

[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...

自然の中でショウジョウバエがVRをプレイし、注意メカニズムとワーキングメモリを発見

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

この国産トランスフォーマーは自動変形、音声制御、プログラミングが可能。外国人は狂ったように気に入っている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

2021 年のサイバーセキュリティにおける人工知能のトレンドは何ですか?

研究によると、人工知能技術はサイバーセキュリティの脅威やデータ侵害を防ぐ上で非常に重要です。人工知能...