機械翻訳と人工知能が融合すると、信頼性は高まるでしょうか?

機械翻訳というと、多くの人が戸惑うでしょう。10年以上も前には、英語の文章をKingsoft PowerWordに入力すると、中国語に翻訳できました。機械翻訳とディープラーニング技術の違いは何ですか?

もちろん、違いはたくさんあります。最も典型的な違いは、機械翻訳は記事全体を翻訳できますが、通常の翻訳技術では長い文章を翻訳できないことです。その理由は、機械翻訳は単に単語を別の言語に翻訳するのではなく、人間のように、複雑な文章を理解するために常に遡り、文脈に基づいてそれぞれの「それ/彼/彼女」が誰を指しているのか理解できるからです。

[[202381]]

この機能を実現するために、2 つのニューラルネットワークアーキテクチャに依存します。1 つは RNN (再帰型ニューラルネットワーク)、もう 1 つは CNN (畳み込みニューラルネットワーク) です。最近、RNN と CNN のどちらが機械翻訳に適しているかについて多くの議論が行われています。今日は、これら 2 つのニューラルネットワークが機械翻訳を強化し、外国語の専門家の手間を省く方法について見てみましょう。

RNN: 機械翻訳の昔ながらの方法

まず、機械にとって翻訳とはデコードしてからエンコードするプロセスであることを理解する必要があります。英語を中国語に翻訳したい場合は、まず元の英語を「ニューラルコード」にデコードし、次に中国語にエンコードする必要があります。

再帰型ニューラルネットワークの鍵は、「再帰」という言葉にあります。システムは、前の出力の内容を「記憶」し、それを使用して次の出力を決定します。前回と次回の概念により、ニューラルネットワークは入力情報と出力情報を独立したものとしてではなく、相互に関連する時系列として扱います。このようにして、前のシーケンスの関連付けを通じて、次のシーケンスに現れる単語を推測することができます。

簡単に言えば、郭徳剛のクロストークを何度も聞いた後、私たちは「于謙の父」という要素の後に「王さん」が続くはずだと知っています。

翻訳の際、RNN はソース言語を入力シーケンスとして扱い、翻訳された言語を出力シーケンスとして扱います。各出力は前の出力の結果を参照するため、機械翻訳は単に単語を翻訳するよりも総合的です。

現在、RNN の最も洗練された応用は、おそらく Google 翻訳でしょう。昨年、Google は機械翻訳にニューラルネットワークシステムを使用することを提案しました。中国語から英語への翻訳のエラー率が 85% 減少したと言われており、当時はちょっとした話題になりました。

従来のニューラルネットワークが翻訳時に常に空白の脳を使用して各文に直面するのに対し、RNN は翻訳時に持続的な思考を持ち、Google 翻訳で使用される LSTM はこの点をさらに強化します。 LSTM は RNN の変種であり、長短期記憶ネットワークと翻訳され、時間再帰ニューラルネットワークです。 RNN の欠点は、以前は「Yu Qian の父 - 王さん」のような短い間隔のシーケンスを予測するのは簡単でしたが、「今日は家を出るのがとても遅かったので、仕事に行きました[]」のような文を予測するには、より長い間隔のコンテキストに接続する必要があり、RNN のパフォーマンスがそれほど良くない可能性があることです。

LSTM は、この長期的な依存関係を学習して理解することができます。 LSTM は、一連の計算を通じて文中の各要素の特徴を非線形の組み合わせに構築し、重みの低い要素を忘れる「忘却メカニズム」も確立します。これは、LSTM がメモリを「更新」して、より近いニューロンに長期的な依存関係が引き続き存在するようにできることを意味します。

CNN: GPUの寵児

RNN 機械翻訳がまだ更新中だったときに、誰かが CNN (畳み込みニューラルネットワーク) を機械翻訳に適用することを提案しました。

上記から、RNN (LSTM) 機械翻訳は順番に機能し、つまり人間と同じように 1 つずつ順番に翻訳することがわかります。しかし、覚えておいてほしいのは、現在主流の GPU の最大の利点は並列コンピューティングを実行できることです。このように、RNN は GPU の計算能力を最大限に活用できません。

CNN は複数の言語断片を同時に処理でき、情報をレイヤーで処理する機能を備えています。テキストはシリアル化され、単語はベクトル化され、階層化された処理を経て結果が出力されます。レイヤリングプロセス中は、ソーステキストが継続的に確認され、次の出力シーケンスが決定されます。

この技術は、Facebookと最近機械翻訳の新興企業DeepLによって提案された。 Facebookは今年上半期、CNNをベースに開発した言語翻訳モデルのリリースを発表しており、RNNをベースにした言語翻訳モデルよりも9倍高速で正確だと言われている。テストでは、Facebook の翻訳システムは、英語からドイツ語、英語からフランス語のテストにおいて RNN よりも人間の翻訳に近い結果が出ました。

ドイツのDeepLは、ニューラルネットワークのトレーニングのためだけに、1秒あたり5.1ペタの浮動小数点演算を実行できる世界第23位のスーパーコンピューターをアイスランドに設置しました。

彼らが自ら示したデータから判断すると、DeepL のパフォーマンスは Facebook、Microsoft、さらには Google をはるかに上回っています。

しかし、CNN も RNN も機械翻訳の終わりではありません。たとえば、最近 Google が言及した RNN に基づかないアテンションメカニズムや、多層ニューラルネットワーク、ディープニューラルネットワークなどは、すべて機械翻訳を解決する方法です。速度、コンピューティングリソースの消費、感情の理解など、さまざまな側面でさまざまなパフォーマンスを発揮します。

究極の実用性という点では、ニューラルネットワークモデルは世界の一部にしか影響を与えません。さらに重要なのは、コーパスのサイズ、コーパス注釈の重労働などです。同時に、これはモンゴル語やチベット語など、コーパスが少ない言語では、依然として機械翻訳の恩恵を受けられないことも意味します。

現時点では、機械翻訳は基本的にはまだ人間による翻訳を補助する段階にあります。 DeepLのスーパーコンピュータであれ、Googleのニューラルネットワークであれ、それは一種の技術的な「ショーマンシップ」として理解できる。どのニューラルネットワークを使用するかよりも重要なのは、機械翻訳を私たちの生活にもっと取り入れることです。

<<: 人工知能の真の可能性を捉えて、最も大きなチャンスを提供する製品やサービスはどれでしょうか?

>>: 人間が理解できる音声を合成するために、機械はどのような「ディープラーニング」を行っているのでしょうか？