Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fang Fei、Gu Quanquan、Li Boなど多くの研究者がコンピューターサイエンスの分野で賞を受賞しました。

受賞直後、陳丹奇氏のチームは新たな研究を発表した。しかし、陳丹奇のこれまでの高く評価された作品とは異なり、この新しい作品は多くの疑問に直面している。

この研究はマスク言語モデリング (MLM) に関するものです。マスクされた言語モデルでは通常、15% のマスク率が使用されます。これは、マスク率が高いと適切な表現を学習するのに十分なコンテキストが提供されず、マスク率が低いとトレーニングコストが大幅に増加することが判明しているためです。しかし、陳丹奇氏らは、マスキング率を40％に上げると、パフォーマンスが15％のベースラインを超える可能性があること、また、80％に上げると、パフォーマンスの大部分を維持できることを発見しました。これは、下流のタスクを微調整した結果です。

この研究は多くの人々の独自の実験結果と矛盾しており、オープンソースコードもなかったため、TwitterやZhihuなどのプラットフォーム上で大きな論争を引き起こした。

これは単にパラメータ調整の結果であり、理論的根拠はなく、「何層ものブラックボックスがある」ため、再現できるかどうかは一概には言えないと考える人もいます。しかし、論文の設定通りに厳密に論文の結果を再現できれば、それは「誰かが事前に最適なパラメータを調整した」に等しいと考える人もいますが、それは間違いではありません。さらに、この論文は「すべての人にMLMの使用を再考するきっかけを与える」ものであり、価値ある研究であるといえます。

知乎リンク: https://www.zhihu.com/question/517319014?utm_source

次はこの作品を一緒に見ていきましょう。

この記事の内容は何ですか?

数か月前、He Kaiming の Masked Autoencoders がコンピュータービジョンで人気を博しました。元の画像の 80% をマスクして再構成できる機能は驚異的です。 He Kaiming氏らは論文の中で、CV分野における事前学習済みの大規模モデルの将来性に期待を寄せている。NLP分野では、アルゴリズムの学習によく使われるマスキング率は15%である。陳丹奇氏の新たな研究では、この数は大幅に増加した。

論文リンク: https://arxiv.org/abs/2202.08005

事前トレーニング済みの言語モデルは、自然言語処理の状況を変えました。大規模言語モデルは、豊富な多様な言語表現機能を獲得するために、膨大な量のテキストデータでトレーニングされます。常にシーケンス内の次のトークンを予測する自己回帰モデルと比較して、BERT などのマスク言語モデル (MLM) は、コンテキストに基づいて入力トークンのマスクされたサブセットを予測します。これは、双方向の性質により、より適切に機能することがよくあります。

このアプローチは、モデルをトークンコンテンツのごく一部 (通常はシーケンスあたり 15%) のみをマスクするように制限することから始まります。 15% という数字は、マスクされたテキストが多すぎるとモデルが表現をうまく学習できないという仮定を反映しており、これは BERT 以降の研究で広く採用されている考え方です。同時に、シーケンスの 15% のみを予測することは、MLM の効果的な事前トレーニングの制限であると考えられてきました。

プリンストン大学の Danqi Chen 氏らによる研究では、著者らはこれまでの結論とはまったく異なる状況を発見しました。効果的な事前トレーニングスキームでは、入力テキストの 40 ～ 50% をマスクして、デフォルトの 15% よりも優れたダウンストリームパフォーマンスを実現できるということです。

次の表は、マスキングが 80%、40%、15% の事前トレーニング済みモデルのダウンストリームパフォーマンスを示しています。マスキング率が 80% の場合、コンテキストコンテンツの大部分は見えなくなりますが、15% のマスキングと比較すると、モデルは同様の事前トレーニング済みの表現効果を学習できます。これはマスキング率に関する人々の直感に疑問を投げかけ、モデルが高マスキング率からどのように利益を得るのかという疑問を提起します。

表 1: 異なるマスキング率でのマスキングの例、検証の難しさ、および下流タスクのパフォーマンス。ここで、すべてのモデルは、効果的な事前トレーニング条件下でトレーニングされた大規模なモデルです。

これに沿って、著者らはマスキング率を、破損率（どの程度のコンテキストがマスキングされるか）と予測率（モデルによって予測されるトークンの数）の 2 つの要素に分解することを提案しています。 MLM では、損害率と予測率は両方ともマスキング率と同じです。ただし、これら 2 つの要因は逆の効果をもたらします。予測率が高いほどトレーニング信号が多く生成され、最適化のメリットが得られますが、破損率が高いほどコンテキストが少なくなり、学習の問題がより困難になります。

これら 2 つの要因を個別に研究するために、著者らは損傷と予測を分離するアブレーション実験を設計しました。実験により、モデルは予測率が高くなるとメリットがあるものの、損傷率が高くなるとメリットがないことが示されました。より高い予測率の利点がより高い損傷率の悪影響をカバーできるかどうかによって、モデルがより高いマスキング率でより優れたパフォーマンスを発揮できるかどうかが決まります。研究者らはまた、より高い損傷率を処理するより大きなモデルでは、より高い最適なマスキング率を示すことも発見した。

この結果に触発されて、著者らはスパンマスキングや PMI マスキングなどの複雑なケースでより高いマスキング率を考慮しました。マスキング率 15% で評価すると、これらの方法は単純な均一マスキングよりも優れていることが示されていますが、均一マスキングは、それぞれの最高のマスキング率で複雑なマスキングベースラインと競合します。この記事の著者らは、新しい予測率 - 損傷率フレームワークは、生のトークンまたはランダムトークン (80-10-10 戦略) に基づく BERT の予測手法にも新たな光を当てると述べています。この手法がなければ、モデルのパフォーマンスは通常向上します。

著者らは議論の中で、MLM でより高いマスキング率を採用すると、特にリソースが限られた環境ではパフォーマンスが向上すると述べました。入力からマスクされたトークンを削除したり、破損率と予測率を切り離したりすると、事前トレーニングがさらに高速化される可能性があります。

具体的には、この研究の貢献は次のとおりです。

研究によると、高いマスキング率でマスクされた言語モデルのトレーニングが成功する可能性があることがわかりました。たとえば、効率的な事前トレーニング方法を備えた大規模モデルでは、マスキング率が 15% の場合よりも 40% の場合の方がパフォーマンスが向上します。
研究者らは、マスキング率を破損率と予測率に分解することを提案しています。これら 2 つの相反する要因は、それぞれタスクの難易度とトレーニング信号に影響します。このフレームワークを使用して、研究者らは、モデルが大きいほど最適なマスキング率が高くなり、[MASK] トークンのみを使用したマスキングが 80-10-10 戦略よりも優れていることを示しています。
この調査では、マスキング率が高い場合、均一マスキングは、スパンマスキングや PMI マスキングなどのより高度なマスキングスキームと競合できることが実証されています。

マスク言語モデルでは、通常 15% のマスク率が使用されます。研究者は一般的に、マスク率が高いと適切な表現を学習するためのコンテキストが不十分になり、マスク率が低いとトレーニングコストが高くなりすぎると考えています。

この研究では、下流のタスクの微調整によって測定したところ、最大 40% のマスキングレートが 15% のベースラインを上回るパフォーマンスを発揮し、80% のマスキングでもパフォーマンスの大部分を維持できることがわかりました。

実験結果

アブレーション実験で、研究者らはマスキング率を上げると次の 2 つの効果があることを発見しました。1. 入力トークンの破損率が高くなり、コンテキストのサイズが小さくなり、タスクが難しくなります。2. モデルがより多くの予測を実行し、トレーニングに役立ちます。研究者らは、大規模なモデルは本質的に困難なタスクを実行する能力が高いため、より高いマスキング率に特に適していることを観察しました。さらに、研究者らはこの発見を、スパンマスキングや PMI マスキングなどの複雑なマスキングスキーム、および BERT の 80-10-10 戦略と組み合わせ、単純な均一マスキングを [MASK] に置き換えた方が、より高いマスキングレートで競争力があることを発見しました。

図 1: 効率的な事前トレーニングスキームを使用した大規模モデルに対するマスキング比率の影響。研究者らは、ほとんどのタスクにおいて、15% より高いマスキング率の方がパフォーマンスが良く、40% が最適なマスキング率であることを発見しました。

表 2: 大規模モデルと効率的な事前トレーニング方法の条件下での GLUE ベンチマークでの 15% または 40% のマスキング率のテスト結果の比較。

図 2: マスキング率が 15% と 40% の効率的な事前トレーニング方法を使用してトレーニングされた大規模モデルのダウンストリームタスクのパフォーマンス。

表3: 被害率と予測率40% のマスキングをベースラインとして使用し、m_corr と m_pred を分離して個別に操作します。傾向は明らかです。予測率が高いほど有益ですが、損害率が高いほど有害です。

図 3: 異なるサイズのモデルに対するマスキング比の影響。モデルが大きいほど、最適なマスキング比も大きくなることがわかります。

今後の展望

研究者らは、他の言語モデルにおけるマスキング率の問題についてさらに議論しました。MLM に加えて、自己回帰言語モデル (Radford ら、2018 年、Brown ら、2020 年) やシーケンスツーシーケンス言語モデル (Raffel ら、2020 年、Lewis ら、2020 年) など、NLP タスクに広く使用されている事前トレーニングスキームが他にもあります。同様に、シーケンスツーシーケンス言語モデルは、特定のマスキング率でテキストを破損し、自己回帰方式でマスキングされたテキストを予測します。 T5 (Raffel et al., 2020) でも 15% のマスキング率が使用されます。研究者らは、例えばテキスト対テキストモデルを研究し、マスキング率とさまざまな種類のデコーダー間の相互作用を調査するなど、研究を拡大する予定です。
詳細については、原文論文を参照してください。

<<: 自動運転車の安全性保証、検証、認証の見直し

>>: 住宅価格予測のための機械学習