マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

マイルストーンではありません! Facebookの100言語翻訳モデルは過大評価され、疑問視されている

[[347640]]

Facebookはまた失敗したのか?

フェイスブックは昨日、自社の機械翻訳が画期的な進歩を遂げ、英語を「仲介者」として頼ることなく100言語間の相互翻訳を実現できると発表したばかりだが、今日、Redditのネットユーザーが騒ぎ始めた。

ネットユーザーは、Facebook はこれまでも宣伝を誇張していたが、今回はちょっとやりすぎだったと述べた。

Facebook の 100 言語への翻訳は画期的なことではないでしょうか?

Facebookは、最新モデルはトレーニング中に英語を仲介する必要なく、中国語からフランス語など最大100言語で直接機械翻訳を実行できると主張している。機械翻訳を評価するために広く使用されている BLEU メトリックでは、英語中心の翻訳システムよりも 10 パーセントポイント優れています。

Facebook AI Labのブログでは、Googleが4年前にこれを行っていたことには触れられていなかった。

Googleが2016年に発表したこの研究成果も、何百万もの例文から学習し、翻訳の品質を大幅に向上させるエンドツーエンドの学習フレームワークです。

この翻訳システムは、テストデータ上で翻訳品質を向上させるだけでなく、103 の言語間の翻訳をサポートし、毎日 1,400 億語以上を翻訳します。まだいくつか問題はあるものの、Google は確かに 100 言語を達成しました。

Google のシステムがどのように機能するかを見てみましょう。

Google のアルゴリズムはゼロショット学習です。日本語、英語、韓国語の例を使用して、パラメータを共有することでこれらの異なる言語ペア間で翻訳する単一の GNMT システムと同じサイズの多言語翻訳システムを実装するとします。この共有により、システムは「翻訳エクスペリエンス」をある言語ペアから別の言語ペアに転送できるようになります。

「フェイスブックが英語のデータに依存していないという主張も不正確だ」

Facebook の論文のグラフは、使用されたデータセットの一部に英語が含まれていることを示しています。英語にまったく依存していないと言うことは、英語の役割をある程度否定することになります。

これまでのところ、Google は 103 の言語でのトレーニングについて議論した論文と、「英語のデータに依存しない」別の論文を発表している。

Googleが2019年にリリースした大規模多言語機械翻訳は103の言語に対応していますが、ソース言語またはターゲット言語は英語です。

技術的な正確さの観点から見ると、英語のデータに依存せず、100 を超える言語をカバーしているという両方の要件を満たす論文を見つけるのは確かに困難です。

ネットユーザーは、「Facebook は巨大な NMT データセットを作成し、それに基づいて Transformer をトレーニングした」という表現が誤解を招かないはずだと考えています。

Facebook の声明が正確かどうかは別として、同社のモデルのパフォーマンスは確かに以前よりも向上している。同社は関連するデータセットとコードもオープンソース化しており、コンピューティング リソースを持つ学生がそれを検証できる。

では、人間による翻訳は機械翻訳に置き換えられるのでしょうか?

機械翻訳は人間の翻訳に完全に取って代わるでしょうか?熟考の上!

機械翻訳技術の継続的な進歩により、これはますます多くの人々、特に翻訳業界の人々にとって大きな懸念事項となっています。

これは根拠のない心配ではありません。

Facebook が最近オープンソース化した M2M-100 モデルであれ、Google が以前にリリースした 103 言語をサポートする AI 翻訳であれ、いずれも機械翻訳が人間の翻訳に取って代わる大きな可能性を秘めていることを示しています。

しかし、現在の機械翻訳の発展状況から判断すると、人間の翻訳を完全に置き換えることはまだ非現実的です。

技術的な観点から見ると、機械翻訳には、混乱した語順、不正確な語の意味、孤立した構文分析など、克服すべき技術的な困難がまだ多く残っています。

実用化の観点から見ると、機械翻訳は、より口語的な翻訳シナリオ、高度な専門知識の背景を必要とするシナリオ、および長い会話のシナリオでは、正確で高速な翻訳を実現できません。

これまでメディアは、大規模な会議で機械同時翻訳が支離滅裂な内容が多かったり、名前が認識されなかったり、日常会話がとんでもない形で翻訳されたりするなど、機械翻訳の「クラッシュ」を数多く報じてきました...

性能はそれほど満足できるものではないが、機械翻訳の急速な発展により、低レベルの人間の翻訳者グループが排除されることは間違いないだろう。「低レベル」の翻訳しかできない人間の翻訳者は、間違いなく機械翻訳に置き換えられるだろう。

本当に高度な翻訳者であれば、この問題をまったく心配する必要はありません。現在利用可能な最も高度な機械翻訳でさえ、「忠実性、表現力、優雅さ」という翻訳の要件を満たすには程遠い状態です。

それどころか、機械翻訳は、高度な翻訳者を機械的で退屈で単純な翻訳作業から解放し、より創造的な作業にエネルギーを割けるツールにすることができます。

実際、将来の翻訳者は編集者や品質管理の専門家とより近い立場になり、機械翻訳の初稿を修正して磨き上げ、文学作品を創作する可能性が高くなるでしょう。

つまり、現時点では機械翻訳が人間による翻訳に完全に取って代わることはなさそうです。

AI 企業は宣伝を誇張するのが好きです。人工知能は「ifelse」に基づいていますか?

人間による翻訳に代わることを目的としていると思われるFacebookのモデルは、多くの議論を巻き起こした。

ネットユーザーの中には、機械学習の分野は常に世論によって誤解されていると信じている人さえいます。

一部の大企業の研究や意見は、より容易に聞かれ、論文の受理においても一定の利点があります。

トップカンファレンスの論文レビューはダブルブラインド方式が主流ですが、査読者が著者のバックグラウンドを判断するのは簡単です。例えば、論文のモデルが数千個のTPUを使用している場合、それは間違いなく大企業の論文です。

GoogleやFacebookのような大手テクノロジー企業には、確かに多くの有利な立場があります。

一部の AI 企業は、これらの論文を利用して AI の実際的な役割を誇張することを好みます。

さらに、プレスリリースは研究者以外の人によって、限られた説明や論文の要約に基づいて書かれることがあり、事実確認が行われていない可能性があり、特定の偏見につながる可能性があります。

以前、Uberに関するツイートが大きな注目を集めた。そのツイートはプレスリリースを引用したもので、「Uberは酔った乗客を識別するために人工知能を使用する。AIシステムは、現在時刻、車の位置、ユーザーの躊躇時間などのパラメータを使用して判断を下す」と述べていた。

その下には、「それは AI ではありません。単なる if ステートメントです。」という文があります。また、このインテリジェント認識システムを実装するためのコードも示されており、これには合計 2 行が必要です。

実際のところ、それはそれほど単純ではないかもしれません。

Uber は機械学習を使用して過去のデータに基づいてモデルの重みを微調整し、誤った判断を使用して予測モデルを更新する可能性もありますが、一部の AI アプリケーションは実際には論文ほど優れていません。

では、ifelse ベースの AI アプリケーションを作成したことがありますか?

<<:  AI倫理: CIOが問うべき5つの質問

>>:  データ構造とアルゴリズム: グラフ構造

ブログ    
ブログ    

推薦する

中国で自動運転元年となるのは何年でしょうか? 2021年かも

インテリジェント化は将来の自動車発展の基本的な方向であり、自動運転技術は将来の自動車発展の重要な最先...

ヘルスケアにおける AI の活用: データを行動に変える

ヘルスケアにおける人工知能 (AI) の利点を裏付ける統計、調査、業界の誇大宣伝は数多くあります。人...

2022 AIOPS のトレンドと予測: 知っておくべきことすべて

人工知能、機械学習、自動化などの高度なテクノロジーの登場により、最先端のビジネスシナリオは大きな変化...

人工知能と人間の知能のギャップは何でしょうか?

AlphaGoがイ・セドルを破った後、人類の知能の最後の高みも人工知能によって征服されたと誰もが言...

最新レポート: 従業員の 25% が ChatGPT などの AI ツールに機密データをアップロードしている

新たな調査によると、従業員の15%がChatGPTに会社のデータを頻繁にアップロードしており、そのデ...

この本は人気があり、この本を学んだ男性は給料が30万以上上がった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

警告! 「リップリーディング」キーでデータを盗む、AIは本当に怖い

コンピューターに頼って悪者を即座に見つけることができれば素晴らしいのですが、問題は AI システムが...

マスク:オプティマスプライムと歩く

テスラのロボットが服を畳むという現象が、今、大流行している。数日後、マスク氏はオプティマスプライムが...

...

...

研究者は人工知能を使って交通事故を事前に予測する

研究者らは、過去の衝突データ、道路地図、衛星画像、GPS に基づいてディープ モデルをトレーニングし...

アルゴリズム問題の分析プロセス

[[384555]]トピックを理解する最近アルゴリズムの問​​題をたくさん見ていますが、小さな問題を...

...

Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

過去 50 年間で最も重要な 8 つの統計的進歩!コロンビア大学教授がAI革命を推進する統計的アイデアを列挙

ディープラーニングと人工知能は誰もが知る名前になりましたが、この革命を推進する統計学の進歩はあまり知...