DeepMindは、オートエンコーダに「自己修正」を教える「SUNDAE」と呼ばれる言語モデルを提案している。

DeepMindは、オートエンコーダに「自己修正」を教える「SUNDAE」と呼ばれる言語モデルを提案している。

[[440946]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

自己回帰モデル(AR) は、テキスト生成タスクにおいて常に優れたパフォーマンスを発揮してきました。

現在、DeepMind は、オートエンコーダに「自己修正」を学習させることで、 SUNDAEと呼ばれる非自己回帰モデルを提案しています。

これは、WMT'14 英語 - ドイツ語翻訳タスクにおいて非自己回帰モデルの中で SOTA を達成するだけでなく、自己回帰モデルと同等のパフォーマンスも示します。

さらに驚くべきことは、自己回帰モデルではできないこと、つまりテキスト補完を簡単に実行できることです。

ご存知のとおり、非自己回帰モデルは常に不人気でした。

この「サンデー」のテキスト補完機能は、人間と機械が共同でテキストを編集、作成する新しい方法も提供します。

非自己回帰言語モデル「サンデー」

「Sundae」の正式名称は「Step-unrolled Denoising Autoencoder」(SUNDAE) です。新しいテキスト生成モデルであるため、従来の自己回帰モデルに依存しません。

ノイズ除去拡散と同様に、Sundae はトレーニング中にアンロールされたノイズ除去を使用し、ランダムな入力から始めて収束するまで毎回改善しながら、一連のトークンに繰り返し適用します。

これは「自己修正」プロセスと呼ばれるものです。

次の図は、単一のノイズ低減と拡張ノイズ低減の違いを示しています。

最初の行は元のテキストで、ランダムに「破損」して新しいテキスト(2 行目)が生成されます。緑のトークンは「汚染されていない」テキストを表し、赤のトークンは「汚染された」テキストを表します。

この中間テキストはノイズ除去(生成モデルからサンプリング)され、下部に別の「汚染された」テキストが生成されます。

標準的なノイズ除去オートエンコーダーは中央のテキストから上のテキストへのマッピングのみを学習しますが、プログレッシブ アンローリング ノイズ除去オートエンコーダー (「Sundae」) は下から上へのマッピングを学習します。

テキスト生成中に、ネットワークが遭遇するテキストのほとんどは、上の図の中央のようなものではなく、下部のようなものであるので、拡張ノイズ除去は非常に役立ちます。

さらに、研究者らは、ノイズ除去拡散技術よりも少ない反復で収束を達成しながら、自然言語データセット上で質的に優れたサンプルを生成できる単純な改善演算子を提案しました。

端的に言えば、「Sundae」が採用した方式は、テキスト合成の品質と速度を制御可能にします。

機械翻訳やテキスト生成タスクでのパフォーマンスはいかがでしょうか?

「サンデー」の具体的なパフォーマンスを見てみましょう。

研究者らはまず、機械翻訳ベンチマークでSundaeを評価した。

BLEU スコアを基準として使用し、WMT’14 ドイツ語-英語翻訳タスクにおける「Sundae」の翻訳品質を自己回帰 (AR) モデルおよび非 AR モデルと比較します。

結果によると、シーケンスレベルの知識蒸留などの技術を使用しなくても、「Sundae」のパフォーマンスは AR モデルとほぼ同等であり、すべての非 AR モデルを上回っています。

次は、テキスト生成タスクにおける Sundae の評価です。

研究者らは、大規模で高品質な公開データセットである Colossal Clean Common Crawl (C4) を使用して Sundae をトレーニングしました。

このモデルには、合計 335M のパラメータ、24 層、埋め込みサイズ 1024、非表示サイズ 4096、およびアテンション ヘッド 16 個が含まれています。バッチ サイズ 4096 の Adam オプティマイザーを使用して、最大 400,000 ステップにわたってトレーニングされました。

結果のテキストは、 cherry picking なしで次のようになります。

これら 10 個の文のうち、4 番目の文を除いて、すべて非常に合理的です。

ただし、C4 データセットはインターネットから取得されるため、トレーニング セットと最終的に生成された結果の両方に改行が多数あります。

さらに、「サンデー」モデルの非自己回帰的な性質のため、研究者らはテキストの「修復」能力もテストしました。

ご存知のとおり、左から右へ順番にしか生成できない AR モデルでは、これは単純に不可能です

結果は次のとおりです(厳選):

  • C4 データセット
  • GitHub 上の Python プログラムのデータセット

この効果についてどう思いますか?構文とロジックには問題はないようです。

詳しいデータや内容については、以下のリンクをクリックしてください。

論文の宛先:

https://arxiv.org/abs/2112.06749

<<:  人間の運転、交通事故の最大の欠陥 | 自動運転車の交通安全に関する白書が発表

>>:  自動化を推進するAIテストツール

ブログ    

推薦する

ジャック・マー:私は人工知能を恐れていない。今後30年間で私がやることは1つだけだ

[[223784]]ジャック・マー氏は以前、世界経済フォーラムでこう語った。「将来、多くの仕事が人工...

AIが再び大学入試小論文に挑戦、強力なハードコア技術で「数秒」の文章作成を実現

昨日(6月7日)、2022年度全国大学入学試験が始まりました。午前中に中国語科目試験が終了し、中国語...

...

IEEE: 新たな AI サイバーセキュリティの課題と解決策

人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...

AIoT: トーク

AIoT とは何ですか? 何ができるのでしょうか? これらは、今日の記事で取り上げる質問です。本質的...

推奨に値する 7 つの優れたオープンソース AI ライブラリ

[[406029]] [51CTO.com クイック翻訳]人工知能 (AI) 研究の分野では、Ten...

マイクロソフトとフェイスブックが共同で人工知能ソフトウェアを開発し、グーグルの主導的地位に挑戦

マイクロソフトはすでにオープンソースの人工知能ソフトウェアを持っています。しかしここ数カ月、マイクロ...

「Painted Skin」の悪夢が現実に? 「人間の皮膚」で覆われたこのロボットはCell誌に掲載された。

指が背中をゆっくりと優しくなぞり、背骨に沿って上へ移動し、そしてゆっくりと止まるところを想像してくだ...

数学をしっかり学べないMLエンジニアは優れたデータサイエンティストではない

数学はすべての科目の基礎であり、数学の学習には終わりがありません。ビジネスに携わっている場合、または...

機械学習のための特徴選択の5つの方法!

使用される特徴の数が増えるにつれて、モデルのパフォーマンスが向上することが分かっています。ただし、ピ...

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニ...

Haiyun Jiexun の Ren Zhongping 氏: アイデアから実現まで、AI はわずか 10 クリックで実現します。

[51CTO.comよりオリジナル記事] 10月13日、中関村スタートアップストリートで、中関村ス...

人工知能のビジネス価値を最大限に引き出すための10の重要な役割

あらゆる業界でますます多くの企業が、ビジネス プロセスを変革するために AI を導入しています。しか...

パーソナライズされた推奨事項は、馴染みのあるものに偏っていますか?アルゴリズムは公平性を侵害できない

北京日報によると、異なる消費者が同じ電子商取引プラットフォーム上で同じキーワードを使用して商品を検索...