事前学習済みのNLPモデルにおける性別相関の測定

自然言語処理 (NLP) はここ数年で大きな進歩を遂げており、BERT、ALBERT、ELECTRA、XLNet などの事前トレーニング済みの言語モデルはさまざまなタスクで高い精度を達成しています。事前学習済み言語モデルは、Wikipedia などの大規模なテキストコーパスを学習セットとして使用し、一部の単語をマスクして予測することで埋め込み表現を学習します。これをマスク言語モデリングと呼びます。実験結果は、この方法で、異なる概念（外科医とメスなど）間の豊富な意味情報をエンコードできることを示しています。トレーニング後、モデルを微調整してタスク固有のトレーニングデータに適応させることができ、分類などの特定のタスクは事前トレーニング済みの埋め込みを通じて実現できます。このような事前トレーニング済みの表現はさまざまな NLP タスクで広く使用されているため、実践者としては、事前トレーニング済みのモデルがどのように情報をエンコードし、どのような相関関係を学習し、これらが下流のアプリケーションのパフォーマンスにどのように影響するかを理解して、AI の原則から逸脱しないようにする必要があります。

「事前学習済みモデルにおける性別の相関関係の測定と削減」では、BERT とその簡素化バージョンである ALBERT のケーススタディを実施し、性別の相関関係について議論し、事前学習済み言語モデルの実際のアプリケーションに関する参考資料を提供します。私たちは学術タスクデータセットで実験を行い、その結果をいくつかの一般的に使用されているモデルと比較することで、モデルの実用性を検証し、さらなる研究のための参考資料を提供しました。今後、NLP タスクの精度を維持しながら性別の相関関係を減らす一連のチェックポイントをリリースする予定です。

関連性の測定

事前トレーニングされた表現の相関関係が下流のタスクにどのように影響するかを理解するために、さまざまな評価指標を使用して性別の表現を研究することができます。ここでは、モデルが文中の特定の代名詞の正しい先行詞を理解できるようにすることを目的とした方法である共参照解決を使用したテスト結果について説明します。たとえば、モデルが代名詞が患者ではなく看護師を指していることを認識しようとしている文などです。

OntoNotes (Hovy et al., 2006) は最も一般的に使用されている標準検証データセットであり、F1 スコアは共参照解決におけるモデルの精度を測定するために使用されます (Tenney et al., 2019)。 OntoNotes は 1 つのデータ分布のみを表すため、性別と職業が誤った共参照解決を生成する場合に関する追加データを提供する WinoGender ベンチマークも使用します。 WinoGender スコアが高い (1 に近い) 場合、モデルは性別と職業の関連性に基づいて決定を下します (看護師を男性ではなく女性に関連付けるなど)。性別と職業の間に一貫した関連性がない場合 (スコアが 0)、モデルは文の構造や意味論などの他の情報に基づいて決定を下します。

OntoNotes (精度) および WinoGender (性別の関連性) における BERT と ALBERT のパフォーマンス。 WinoGender の値が低いほど、モデルは推論において性別情報にあまり注意を払いません。

調査の結果、BERT も ALBERT も WinoGender ではゼロスコアを達成できなかったのに対し、OntoNotes では非常に高い精度 (100% に近い) を達成したことがわかりました。実験では、場合によっては、モデルが推論の決定において性別の関連性を考慮に入れることが示されています。これは、モデルがテキストを理解するために複数の手がかり（1 つだけまたはすべて）を使用できるという私たちの予想と一致しています。もちろん、実際の応用では依然として注意が必要であり、以前の性別の相関関係に基づいて予測を行うためにモデルに頼ることはできません。予測には、利用可能なその他の情報も非常に重要です。

実用ガイド

事前トレーニング済みモデルの埋め込みにおける暗黙的な関連付けが下流のタスクに影響を及ぼす可能性があることを考慮すると、新しい NLP モデルを開発する際にこのリスクを軽減するためにどのような手順を踏めばよいでしょうか。

暗黙的な相関関係の測定は非常に重要です。精度メトリックを使用してモデルの品質を評価できますが、このようなメトリックは単一の観点からのみモデルを評価するため、テストデータがトレーニングデータと同じ分布を持つ場合には特に不十分です。たとえば、BERT および ALBERT チェックポイントの精度は 1% 以内ですが、性別相関を使用した共参照解決の相対偏差は 26% です。つまり、一部のタスクでは、このような違いが特に重要になります。反ステレオタイプなテキスト（男性看護師など）を扱う場合は、WinoGender スコアが低いモデルを選択する方が合理的です。
モデル構成を変更するときは、影響が小さいと思われる場合でも注意してください。ニューラルネットワークモデルのトレーニングは、通常、トレーニング目標を最大化するように選択される多くのハイパーパラメータによって制御されます。いくつかのパラメータの選択はモデルにほとんど影響を与えないように見えますが、性別の相関関係に大きな変化をもたらす可能性があることがわかりました。たとえば、ドロップアウト正規化は、モデルの過剰適合を回避するために使用されます。BERT および ALBERT のトレーニング中にドロップアウトパラメータを増やすと、微調整後でも性別の相関関係が大幅に減少します。これは、小さな構成の変更がトレーニング済みモデルに影響を与え、相関関係のリスクを軽減できることを意味しますが、モデル構成の変更は慎重に進め、慎重に評価する必要があることも示しています。

BERT および ALBERT トレーニング中に Dropout パラメータを増やすことの影響

相関の緩和: ドロップアウトが性別の相関に与える影響についての前回の紹介に基づいて、ドロップアウトパラメーターを増やすことで、手動で何も指定したり、微調整段階を変更したりすることなく、モデルが WinoGender を推測する方法を改善できるという追加の相関を減らすことができるとさらに推測します。ただし、ドロップアウトが増加すると OneNotes の精度も低下し始めます (BERT の結果を参照)。ただし、特定のタスクに合わせてドロップアウトを更新せずに変更することでモデルを改善することで、事前トレーニングフェーズ中にこれを回避できると考えられます。本稿では、反事実的データ拡張に基づいて差別化された重みを使用した別の緩和戦略を提案します。

見通し

これらの実用的なガイドラインは、より幅広い言語やアプリケーションに適用できる強力な NLP システムを開発するための参考になると考えています。もちろん、テクノロジーに固有の制限があるため、潜在的な問題をすべて把握して排除することは困難です。したがって、現実世界の環境に展開されるモデルは、さまざまなアプローチを試して厳密にテストし、Google の AI 原則などの倫理基準に準拠していることを確認するための安全策を講じる必要があります。今後、言語モデルをさまざまなタスクに適用し、より多くの人々に高品質なサービスを提供できるよう、評価フレームワークやデータのさらなる開発が進むことを期待しています。

謝辞

この記事の共著者には、Xuezhi Wang、Ian Tenney、Ellie Pavlick、Alex Beutel、Jilin Chen、Emily Pitler、Slav Petrov が含まれます。 Fernando Pereira、Ed Chi、Dipanjan Das、Vera Axelrod、Jacob Eisenstein、Tulsee Doshi、James Wexler にも感謝します。

<<: AIが作ったノアの箱舟はどこへ行くのでしょうか？

>>: 顔認識アクセス制御システムが起動した後は、ゲートを簡単に通過する際に潜在的なリスクにも注意する必要があります。