seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

[[397649]]

シーケンスツーシーケンス (seq2seq) モデルは、自然言語生成タスクに対する効果的なアプローチとして登場し、機械翻訳から要約、文の融合、テキストの簡略化、機械翻訳のポスト編集などの単一言語生成タスクまで、さまざまな用途に使用されています。

ただし、多くの単一言語タスクでは、目的の出力テキストが入力テキストのわずかな書き換えを表すことが多いため、これらのモデルは最適な選択とは言えません。これらのタスクでは、seq2seq モデルは出力単語を 1 つずつ生成するため (つまり、自己回帰的) 遅く、ほとんどの入力トークンが単純に出力にコピーされるため無駄が多くなります。

対照的に、テキスト編集モデルは、入力に適用されて出力を再構築する編集操作(単語の削除、挿入、置換など)を予測することを提案しているため、最近大きな注目を集めています。

これまでのテキスト編集のアプローチには、制限がありました。編集操作の数が限られているため高速 (非自己回帰) だが柔軟性に欠けるか、または、すべての編集操作をサポートしているため柔軟性に富んでいるが低速 (自己回帰) でした。

どちらの場合も、能動態から受動態への切り替えや、「彼らは夕食にステーキを食べた」から「夕食にステーキが食べられた」への切り替えなど、大きな構造的(文法的な)変換をモデル化することに重点を置いたのではなく、フレーズを削除または置き換えるというローカルな変換に重点を置きました。

大規模な構造変換が必要な場合、これらのテキスト編集モデルでは変換を生成できないか、大量の新しいテキストを挿入するため、処理が遅くなります。

最新の論文「FELIX: タグ付けと挿入による柔軟なテキスト編集」で、Google チームは、大規模な構造変更をモデル化し、seq2seq 方式よりも 90 倍高速で、4 つの単一言語編集タスクで非常に優れたパフォーマンスを発揮する、高速で柔軟なテキスト編集システムである FELIX を紹介します。

従来の seq2seq 方式と比較して、FELIX には次の 3 つの主な利点があります。

サンプル効率: 高精度のテキスト生成モデルをトレーニングするには、通常、大量の高品質の教師付きデータが必要です。 FELIX は、(1) 事前トレーニング済みのチェックポイントを微調整する、(2) 少数の編集操作用のラベル付けモデルを学習する、(3) 事前トレーニングタスクと非常によく似たテキスト挿入タスクという 3 つの手法を使用して、必要なデータ量を最小限に抑えます。

高速な推論時間: FELIX は完全に非自己回帰であり、自己回帰デコーダーによって生じる遅い推論時間を回避します。

柔軟なテキスト編集: FELIX は、編集操作の学習の複雑さとモデル化する変換の柔軟性の間でバランスをとります。

つまり、FELIX は、自己教師あり事前トレーニングから最大限の利益を得て、少ないリソースと少ないトレーニング データで効率的なトレーニングを実現することを目指しています。

概要

上記の目標を達成するために、FELIX はテキスト編集タスクを 2 つのサブタスクに分解します。入力単語のサブセットと出力テキストでの順序を決定するためのラベル付けと、入力テキストに存在しない単語の挿入です。

注釈モデルは構造変換をサポートするために新しいポインター メカニズムを採用し、挿入モデルは MLM (Masked Language Model) に基づいています。どちらのモデルも非自己回帰モデルであるため、モデルの速度が保証されます。以下はFELIXのチャートです。

テキスト簡略化タスクのための FELIX データのトレーニングの例。入力された単語には、最初に KEEP (K)、DELETE (D)、または KEEP と INSERT (I) のラベルが付けられます。トークン化後、入力は並べ替えられます。この並べ替えられた入力は、MLM にフィードバックされます。

タグ付けモデル

FELIX の最初のステップは、2 つのコンポーネントで構成されるモデルにラベルを付けることです。

まず、タグ付け機能は、どの単語を保持または削除するか、また新しい単語をどこに挿入するかを決定します。トークナイザーが挿入を予測すると、特別な MASK トークンが出力に追加されます。

トークン化の後、ポインターが入力を並べ替えて出力を形成する並べ替えステップがあり、これにより、新しいテキストを挿入する代わりに入力の一部を再利用できます。並べ替え手順は任意の書き換えをサポートしているため、大きな変更のモデリングが可能になります。

ポインター ネットワークは、以下に示すように、入力内の各単語が出力に表示される次の単語を指すようにトレーニングされます。

「心臓の壁は3層」から「心臓MASKは3層」に変形し、ポインティング機構を実装

モデルを挿入

タグ付けモデルの出力は、単語が削除され、タグ予測とともに MASK トークンが挿入された、並べ替えられた入力テキストです。

タグ付けモデルの出力は、単語が削除され、タグ予測とともに MASK トークンが挿入された、並べ替えられた入力テキストです。挿入されたモデルは、MASK タグの内容を予測する必要があります。 FELIX の挿入モデルは BERT の事前トレーニングの目的と非常に似ているため、事前トレーニングの利点を直接活用することができ、データが限られている場合に特に有利です。

挿入モデルの例。タグが2つの単語が挿入されると予測し、挿入モデルがMASKタグの内容を予測します。

結果

この論文では、FELIX を、文の融合、テキストの簡素化、抽象的要約、機械翻訳のポスト編集の面で評価します。これらのタスクは、必要な編集の種類や操作対象となるデータセットのサイズが大きく異なります。

FELIX は、さまざまなデータセット サイズでの文融合タスク (つまり、2 つの文を 1 つに結合する) において、大規模な事前トレーニング済みの seq2seq モデル (BERT2BERT) およびテキスト編集モデル (LaserTager) と比較されます。

FELIX は LaserTagger よりもパフォーマンスが優れており、トレーニングには数百のサンプルしか必要としないことがわかります。完全なデータセットでは、自己回帰 BERT2BERT が FELIX よりも優れています。ただし、推論中、このモデルは大幅に時間がかかります。

さまざまなサイズの DiscoFuse トレーニング データセットを使用した場合の、FELIX (最高のパフォーマンス モデルを使用)、BERT2BERT、および LaserTagger の参照文との完全一致の割合の比較。

Nvidia Tesla P100 でのバッチ サイズ 32 のレイテンシ (ミリ秒単位)

結論は

FELIX は完全に非自己回帰であり、推論時間を短縮しながら最先端の結果を実現します。

FELIX は、事前トレーニング済みのチェックポイントの微調整、少数の編集操作の学習、MLM タスクを模倣した事前トレーニングからのタスクの挿入という 3 つの手法を通じて、必要なトレーニング データの量を最小限に抑えます。

最後に、FELIX は学習した編集操作の複雑さと、処理できる入出力変換の割合の間でバランスを取ります。

<<:  防衛分野で人工知能はどのような役割を果たすのでしょうか?

>>:  Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

推薦する

...

...

AIと機械学習のサイバーセキュリティという新興分​​野で考慮すべき3つのこと

[[343105]] [51CTO.com クイック翻訳] サイバー脅威の複雑さと数は時代とともに進...

順序保存回帰: リソース利用を最大化するアルゴリズム

[[205069]] 1. 数学的な定義順序保存回帰は回帰アルゴリズムの一種です。基本的な考え方は、...

AIとプライバシーの未来: コンピュータービジョンソリューションとプライバシー

データ保護とセキュリティは、何十年もの間、企業にとって最大の懸念事項でした。現在、75% 以上の企業...

ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響

世界的に権威のある調査機関であるピュー研究所は最近、「アルゴリズムの時代」と題する報告書を発表し、1...

Amazon Translateについて

Amazon Translate は、高速、高品質、手頃な価格の言語翻訳を提供するニューラル機械翻訳...

人工知能アルゴリズムが構造生物学の難問を解決

新しい人工知能アルゴリズムは、RNA 分子の正しい 3 次元構造を間違ったものから選び出すことができ...

それでおしまい? Gptsのプロンプト単語をランダムにクロールします

11月7日のOpenAI開発者会議でサム・アルトマンがGptsを正式に発表しリリースして以来、Gpt...

ジェネレーティブ AI が画像検索をどのように再定義するか

翻訳者 | 李睿レビュー | Chonglou生成 AI は、ユニークなテキスト、サウンド、画像を作...

マイクロソフトCEOナデラ氏:世界は人工知能に関して幅広い合意を形成しつつある

マイクロソフトのCEOサティア・ナデラ氏は1月17日(現地時間)の火曜日、人工知能に関して世界中でコ...

機械学習を予知保全に適用するにはどうすればよいでしょうか?

機械学習と産業用 IoT (IIoT) デバイスから収集されたデータを組み合わせることで、プロセスの...

Facebook、MITなどが共同で451ページの原稿を発表:「第一原理」を使ってDNNを説明する」

Facebook、プリンストン大学、MITのAI研究者らは最近、ディープラーニングが実際にどのよう...

人工知能の時代において、「次世代」の教育はどこから始めるべきでしょうか?

[[334948]]自動運転車、音声アシスタント、その他の人工知能技術は、ほとんどの人にとって革命...

...