108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Googleは、言語翻訳の品質向上に進歩があったと述べている。同社は今後のブログ投稿で、Google 翻訳がサポートする 108 の言語、特にデータの少ないヨルバ語とマラヤーラム語でのユーザーエクスペリエンスを向上させる新しいイノベーションについて詳しく説明します。このサービスでは、これらの言語で 1 日平均 1,500 億語が翻訳されています。

[[328883]]

Google 翻訳が初めて公開されてから 13 年が経ち、ニューラル機械翻訳、書き換えベースのパラダイム、ローカル処理などのテクノロジーにより、プラットフォームの翻訳精度は目に見える形で飛躍的に向上しました。しかし最近まで、最先端の翻訳アルゴリズムは人間のパフォーマンスに遅れをとっていました。 Google 以外の取り組みも、この問題の難しさを物語っています。Masakhane プロジェクトは、アフリカ大陸の何千もの言語の自動翻訳を可能にすることを目指していますが、まだデータ収集と文字起こしの段階から先に進んでいません。オープンソースの音声データを書き起こす取り組みである Common Voice は、2017 年 6 月の開始以来、わずか 40 の音声を検証しただけだ。

Google によると、翻訳品質の飛躍的進歩は単一の技術によるものではなく、リソースの少ない言語、高品質のソース言語、全体的な品質、レイテンシ、全体的な推論速度をターゲットにした技術の組み合わせによるものだという。 2019 年 5 月から 2020 年 5 月の間に、Google 翻訳は、人間による評価と BLEU (システムの翻訳と人間による参照翻訳の類似性に基づく指標) で測定されたすべての言語で平均 5 ポイント以上、パフォーマンスが最も低い 50 件の翻訳では平均 7 ポイント以上向上しました。さらに、Googleは「翻訳」が機械翻訳の連携をより強力にしたと述べた。一つの現象は、テルグ語の文字「షషషషషష」を入力すると（「深圳深圳阳光国際空港（SSH）」）、AIモデルが「Sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh sh」という奇妙な翻訳を生成することだ。

ハイブリッドモデルとデータマイナー

これらの技術の 1 つ目は、翻訳モデルアーキテクチャです。これは、シーケンスモデリング用の TensorFlow フレームワークである Lingvo に実装された Transformer エンコーダーとリカレントニューラルネットワーク (RNN) デコーダーで構成されるハイブリッドアーキテクチャです。

機械翻訳では、エンコーダーが通常、単語やフレーズを内部表現にエンコードし、デコーダーがそれを使用して目的の言語でテキストを生成します。 2017年にGoogleの研究者が初めて提案したTransformerベースのモデルは、この点ではRNNよりも効果的だが、Googleによると、品質改善の大部分はTransformerの1つのコンポーネント、つまりエンコーダーからもたらされたことが研究で示されたという。これは、RNN と Transformer はどちらも順序付けられたデータシーケンスを処理するように設計されているものの、Transformer はシーケンスを順番に処理する必要がないためと考えられます。つまり、問題のデータが自然言語である場合、Transformer は文の終わりを処理する前に文の始めを処理する必要はありません。

それにもかかわらず、推論時には、RNN デコーダーは依然として Transformer のデコーダーよりも「はるかに高速」です。これを認識し、Google 翻訳チームは RNN デコーダーを最適化してから Transformer エンコーダーと組み合わせ、4 年前の RNN ベースのニューラル機械翻訳モデルよりも低レイテンシ、高品質、安定性に優れたハイブリッドモデルを作成しました。

図: 2006 年の開始以来の Google 翻訳モデルの BLEU スコア。（画像出典：Google）

Google は、この斬新なハイブリッドモデルアーキテクチャに加えて、数十年前から使用されているクローラーを使用して、何百万もの翻訳例 (記事、書籍、ドキュメント、Web 検索結果) からトレーニングセットをコンパイルしました。新しい翻訳機は、辞書ベース（単語や語句を表すために実数のベクトルを使用する）ではなく、14 の主要言語の埋め込みに基づいており、考えられたデータ（実際に取得された関連データの総量の割合）よりも精度（取得されたデータのうちの関連データの割合）を重視しています。 Google によれば、これを使用することで、翻訳者が抽出できる文の数が平均で 29% 増加したとのことです。

ノイズの多いデータと転移学習

翻訳パフォーマンスのもう 1 つの向上は、トレーニングデータ内のノイズをより適切に処理するモデリングアプローチによって実現されます。ノイズの多いデータ（適切に理解または解釈できない大量の情報を含むデータ）が言語の翻訳に悪影響を与える可能性があることを観察し、Google 翻訳チームは、ノイズの多いデータでトレーニングされたモデルと「クリーン」なデータでトレーニングされたモデルを使用して例にスコアを割り当てるシステムを導入しました。実際には、これらのモデルはまずすべてのデータでトレーニングされ、その後徐々に小さくてクリーンなサブセットでトレーニングされます。これは、AI 研究コミュニティではカリキュラム学習として知られているアプローチです。

リソースの少ない言語の場合、Google は翻訳に逆翻訳スキームを実装し、言語内の各文とその翻訳をペアにした並列トレーニングデータを増強しました。 (機械翻訳は、従来、ソース言語とターゲット言語のペア文のコーパス統計に依存してきました。) この方式では、トレーニングデータは合成パラレルデータと自動的に調整されるため、ターゲットテキストは自然言語ですが、ソースはニューラル翻訳モデルによって生成されます。その結果、Google 翻訳はより豊富な単一言語のテキストデータを活用してモデルをトレーニングするようになり、Google によれば、これは流暢さの向上に特に役立つとのことです。

画像: 翻訳機能を備えた Google マップ。

Google 翻訳も現在 M4 モデリングを活用しており、1 つの大きなモデルである M4 で複数の言語と英語間の翻訳を行っています。（M4は昨年、100以上の言語で250億の文章ペアをトレーニングした後、30以上の低リソース言語で翻訳品質が向上したことを実証した論文で初めて提案されました。）M4モデリングにより、Google翻訳での転移学習が可能になり、フランス語、ドイツ語、スペイン語などの高リソース言語（数十億の並列例）でトレーニングしてパフォーマンスを向上させ、ヨルバ語、シンド語、ハワイ語（数万の例のみ）などの低リソース言語の翻訳に適用できるようになりました。

将来に向けて

Google によると、翻訳は 2010 年以降、毎年少なくとも 1 BLEU ポイント向上していますが、自動機械翻訳は決して解決策ではありません。 Google は、強化されたモデルであっても、言語の異なる方言を混同したり、直訳が多すぎたり、特定の主題や非公式な言語、話し言葉でのパフォーマンスが悪かったりするなど、エラーが発生しやすいことを認めた。

マイクロソフトは、Google 翻訳コミュニティプログラムなど、さまざまな方法でこの問題に対処しようとしてきました。このプログラムでは、単語やフレーズを翻訳したり、翻訳が正しいかどうかを確認したりすることで、リソースの少ない言語の翻訳品質の向上に協力してくれるボランティアを募集しています。 2月だけでも、このプログラムは新興の機械学習技術と組み合わせることで、合計7500万人が話すキニャルワンダ語、オディア語、タタール語、トルクメン語、ウイグル語の5つの言語への翻訳を追加しました。

真に普遍的な翻訳を追求しているのは Google だけではありません。 2018 年 8 月、Facebook は、単語ごとの翻訳、言語モデル、逆翻訳を組み合わせて言語ペアリングのパフォーマンスを向上させる AI モデルを公開しました。最近、MIT のコンピューターサイエンスおよび人工知能研究所の研究者らは、2 つの言語間で直接翻訳することなく、2 つの言語のテキストを翻訳できる教師なしモデル、つまり明示的にラベル付けまたは分類されていないテストデータから学習できるモデルを提案しました。

グーグルは声明で、学術界と産業界における機械翻訳研究に感謝しており、その一部は自社の研究にも役立っていると外交的に述べた。「私たちは、最近のさまざまな進歩を統合し、拡張することでこれ（Google翻訳の最近の改善）を達成しました」と同社は述べた。「今回のアップデートにより、サポートされている108言語の中で最も少ないリソースに対しても、比較的一貫した自動翻訳を提供できることを誇りに思います。」

<<: 検討すべき5つのスマートホームテクノロジー

>>: 2020 年の機械学習向け Python ライブラリトップ 6!