マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

[[347640]]

Facebookはまた失敗したのか？

フェイスブックは昨日、自社の機械翻訳が画期的な進歩を遂げ、英語を「仲介者」として頼ることなく100言語間の相互翻訳を実現できると発表したばかりだが、今日、Redditのネットユーザーが騒ぎ始めた。

ネットユーザーは、Facebook はこれまでも宣伝を誇張していたが、今回はちょっとやりすぎだったと述べた。

Facebook の 100 言語への翻訳は画期的なことではないでしょうか?

Facebookは、最新モデルはトレーニング中に英語を仲介する必要なく、中国語からフランス語など最大100言語で直接機械翻訳を実行できると主張している。機械翻訳を評価するために広く使用されている BLEU メトリックでは、英語中心の翻訳システムよりも 10 パーセントポイント優れています。

Facebook AI Labのブログでは、Googleが4年前にこれを行っていたことには触れられていなかった。

Googleが2016年に発表したこの研究成果も、何百万もの例文から学習し、翻訳の品質を大幅に向上させるエンドツーエンドの学習フレームワークです。

この翻訳システムは、テストデータ上で翻訳品質を向上させるだけでなく、103 の言語間の翻訳をサポートし、毎日 1,400 億語以上を翻訳します。まだいくつか問題はあるものの、Google は確かに 100 言語を達成しました。

Google のシステムがどのように機能するかを見てみましょう。

Google のアルゴリズムはゼロショット学習です。日本語、英語、韓国語の例を使用して、パラメータを共有することでこれらの異なる言語ペア間で翻訳する単一の GNMT システムと同じサイズの多言語翻訳システムを実装するとします。この共有により、システムは「翻訳エクスペリエンス」をある言語ペアから別の言語ペアに転送できるようになります。

「フェイスブックが英語のデータに依存していないという主張も不正確だ」

Facebook の論文のグラフは、使用されたデータセットの一部に英語が含まれていることを示しています。英語にまったく依存していないと言うことは、英語の役割をある程度否定することになります。

これまでのところ、Google は 103 の言語でのトレーニングについて議論した論文と、「英語のデータに依存しない」別の論文を発表している。

Googleが2019年にリリースした大規模多言語機械翻訳は103の言語に対応していますが、ソース言語またはターゲット言語は英語です。

技術的な正確さの観点から見ると、英語のデータに依存せず、100 を超える言語をカバーしているという両方の要件を満たす論文を見つけるのは確かに困難です。

ネットユーザーは、「Facebook は巨大な NMT データセットを作成し、それに基づいて Transformer をトレーニングした」という表現が誤解を招かないはずだと考えています。

Facebook の声明が正確かどうかは別として、同社のモデルのパフォーマンスは確かに以前よりも向上している。同社は関連するデータセットとコードもオープンソース化しており、コンピューティングリソースを持つ学生がそれを検証できる。

では、人間による翻訳は機械翻訳に置き換えられるのでしょうか?

機械翻訳は人間の翻訳に完全に取って代わるでしょうか?熟考の上！

機械翻訳技術の継続的な進歩により、これはますます多くの人々、特に翻訳業界の人々にとって大きな懸念事項となっています。

これは根拠のない心配ではありません。

Facebook が最近オープンソース化した M2M-100 モデルであれ、Google が以前にリリースした 103 言語をサポートする AI 翻訳であれ、いずれも機械翻訳が人間の翻訳に取って代わる大きな可能性を秘めていることを示しています。

しかし、現在の機械翻訳の発展状況から判断すると、人間の翻訳を完全に置き換えることはまだ非現実的です。

技術的な観点から見ると、機械翻訳には、混乱した語順、不正確な語の意味、孤立した構文分析など、克服すべき技術的な困難がまだ多く残っています。

実用化の観点から見ると、機械翻訳は、より口語的な翻訳シナリオ、高度な専門知識の背景を必要とするシナリオ、および長い会話のシナリオでは、正確で高速な翻訳を実現できません。

これまでメディアは、大規模な会議で機械同時翻訳が支離滅裂な内容が多かったり、名前が認識されなかったり、日常会話がとんでもない形で翻訳されたりするなど、機械翻訳の「クラッシュ」を数多く報じてきました...

性能はそれほど満足できるものではないが、機械翻訳の急速な発展により、低レベルの人間の翻訳者グループが排除されることは間違いないだろう。「低レベル」の翻訳しかできない人間の翻訳者は、間違いなく機械翻訳に置き換えられるだろう。

本当に高度な翻訳者であれば、この問題をまったく心配する必要はありません。現在利用可能な最も高度な機械翻訳でさえ、「忠実性、表現力、優雅さ」という翻訳の要件を満たすには程遠い状態です。

それどころか、機械翻訳は、高度な翻訳者を機械的で退屈で単純な翻訳作業から解放し、より創造的な作業にエネルギーを割けるツールにすることができます。

実際、将来の翻訳者は編集者や品質管理の専門家とより近い立場になり、機械翻訳の初稿を修正して磨き上げ、文学作品を創作する可能性が高くなるでしょう。

つまり、現時点では機械翻訳が人間による翻訳に完全に取って代わることはなさそうです。

AI 企業は宣伝を誇張するのが好きです。人工知能は「ifelse」に基づいていますか?

人間による翻訳に代わることを目的としていると思われるFacebookのモデルは、多くの議論を巻き起こした。

ネットユーザーの中には、機械学習の分野は常に世論によって誤解されていると信じている人さえいます。

一部の大企業の研究や意見は、より容易に聞かれ、論文の受理においても一定の利点があります。

トップカンファレンスの論文レビューはダブルブラインド方式が主流ですが、査読者が著者のバックグラウンドを判断するのは簡単です。例えば、論文のモデルが数千個のTPUを使用している場合、それは間違いなく大企業の論文です。

GoogleやFacebookのような大手テクノロジー企業には、確かに多くの有利な立場があります。

一部の AI 企業は、これらの論文を利用して AI の実際的な役割を誇張することを好みます。

さらに、プレスリリースは研究者以外の人によって、限られた説明や論文の要約に基づいて書かれることがあり、事実確認が行われていない可能性があり、特定の偏見につながる可能性があります。

以前、Uberに関するツイートが大きな注目を集めた。そのツイートはプレスリリースを引用したもので、「Uberは酔った乗客を識別するために人工知能を使用する。AIシステムは、現在時刻、車の位置、ユーザーの躊躇時間などのパラメータを使用して判断を下す」と述べていた。

その下には、「それは AI ではありません。単なる if ステートメントです。」という文があります。また、このインテリジェント認識システムを実装するためのコードも示されており、これには合計 2 行が必要です。

実際のところ、それはそれほど単純ではないかもしれません。

Uber は機械学習を使用して過去のデータに基づいてモデルの重みを微調整し、誤った判断を使用して予測モデルを更新する可能性もありますが、一部の AI アプリケーションは実際には論文ほど優れていません。

では、ifelse ベースの AI アプリケーションを作成したことがありますか?

<<: AI倫理: CIOが問うべき5つの質問

>>: データ構造とアルゴリズム: グラフ構造

ブログ

戦争における顔認識：フランスの諜報機関がチェチェン兵士の身元を発掘、ウクライナは捕虜の身元確認に利用

ブログ

テクノロジーはどのようにして人々を怠惰にするのでしょうか?

ブログ

Keras または TensorFlow?プログラマーはディープラーニングフレームワークをどのように選択すべきでしょうか?

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

Facebook の 100 言語への翻訳は画期的なことではないでしょうか?

機械翻訳は人間の翻訳に完全に取って代わるでしょうか?熟考の上！

AI 企業は宣伝を誇張するのが好きです。人工知能は「ifelse」に基づいていますか?

戦争における顔認識：フランスの諜報機関がチェチェン兵士の身元を発掘、ウクライナは捕虜の身元確認に利用

テクノロジーはどのようにして人々を怠惰にするのでしょうか?

Keras または TensorFlow?プログラマーはディープラーニングフレームワークをどのように選択すべきでしょうか?

オックスフォードの中国人が「3D-BoNet」を提案しました。これは、3D ポイントクラウドインスタンスセグメンテーションアルゴリズムよりも 10 倍高速です。

3Dタスク（知覚、推論、計画、行動）に精通した初の具現化されたジェネラリストエージェント

推薦する

インテルの宋吉強氏：AIは爆発の臨界点に達しており、今年中に専用チップを発売する予定

目を引くバッグ各種を揃えてVision Proが発売！運転/フィットネス/道路横断操作ショーは素晴らしい、AI専門家のKarpathyが千語の個人的な経験を投稿しました

人工知能はどのようにして自分自身に目標を設定するのでしょうか?

機械学習: 決定木について

張北院士：生成型人工知能の3つの大きな機能と1つの大きな欠点

Huaweiの推奨システムにおけるマルチタスクとマルチシナリオの応用

クラウドアーキテクチャに生成 AI を追加するためのヒント

クラウド AI とエッジ AI: 2022 年にはどちらがより良い選択でしょうか?

2年後には「ロボット」が人間の活動の80％以上をこなすようになるのでしょうか？ AIに関する専門家の見解を聞く

音声合成のためのディープフィードフォワードシーケンシャルメモリネットワーク

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

わずか数行のコードで最初のウェブアプリを作成