Alipayの検索エクスペリエンスを向上させるために、Antと北京大学は階層的コントラスト学習を使用してテキストフレームワークを生成

テキスト生成タスクは通常、教師強制法を使用してトレーニングされ、これにより、モデルはトレーニング中に正のサンプルのみを参照できるようになります。ただし、生成されたターゲットと入力の間には通常、一定の制約があります。これらの制約は通常、文のキー要素に反映されます。たとえば、クエリ書き換えタスクでは、「マクドナルドの注文」を「KFC の注文」に変更することはできません。ここで制約の役割を果たすキー要素は、ブランドキーワードです。対照学習を導入し、生成プロセスに負のサンプルを追加することで、モデルはこれらの制約を効果的に学習できます。

既存の対照学習法は主に文全体のレベルに焦点を当てており[1][2]、文中の単語レベルのエンティティの情報は無視されています。下の図の例は、文中のキーワードの重要性を示しています。入力文の場合、キーワードが置き換えられると（例：宇宙論->天体物理学）、文の意味が変わり、意味空間（分布で表される）内の位置も変わります。キーワードは文の中で最も重要な情報であるため、意味分布上の点に対応し、文の分布の位置も大きく決定します。同時に、場合によっては、既存の対照学習目標がモデルにとって簡単すぎるように見え、その結果、モデルは肯定的な例と否定的な例を区別するための重要な情報を実際に学習することができません。

これに基づき、Ant Group、北京大学などの研究者らは、多粒度コントラスト生成法を提案し、階層的コントラスト構造を設計し、異なるレベルで情報強化を実施し、文粒度での学習の全体的な意味を強化し、単語粒度での局所的な重要情報を強化した。この研究論文はACL 2022に採択されました。

論文アドレス: https://aclanthology.org/2022.acl-long.304.pdf

方法

私たちの方法は、古典的なCVAEテキスト生成フレームワーク[3][4]に基づいています。各文はベクトル空間内の分布にマッピングすることができ、文中のキーワードはこの分布からサンプリングされた点と見なすことができます。一方で、文章の粒度を比較することで、潜在空間ベクトル分布の表現を強化します。他方では、グローバルキーワードグラフを構築することで、キーワードポイントの粒度の表現を強化します。最後に、マハラノビス距離を通じてキーワードポイントと文章の分布構造レベルを比較することで、2つの粒度の情報表現を強化します。最終的な損失関数は、3 つの異なる対照学習損失を追加することによって得られます。

文の粒度対照学習

インスタンスレベルでは、元の入力xとターゲット出力

そして、対応する出力ネガティブサンプルは文サイズの比較ペアを構成する。

。事前分布を学習するために事前ネットワークを使用する

と表記される

; 事後ネットワークを通じて近似事後分布を学習する

そして

、それぞれ

そして

。文粒度対照学習の目標は、事前分布と正の事後分布の間の距離を最小化し、事前分布と負の事後分布の間の距離を最大化することです。対応する損失関数は次のとおりです。

ここで、は正のサンプルまたは負のサンプル、は温度係数、は距離メトリックを表すために使用されます。ここでは、KLダイバージェンス（カルバック-ライブラーダイバージェンス）[5]を使用して、2つの分布間の直接距離を測定します。

キーワード粒度比較学習

キーワードネットワーク

キーワード粒度での対照学習は、モデルが文中の重要な情報にさらに注意を払うようにするために使用されます。入力テキストと出力テキスト間の正と負の関係に基づいてキーワードグラフを構築することで、この目標を達成します。具体的には、与えられた文のペアに従って

、それぞれからキーワードを決定することができます

そして

（私は古典的なTextRankアルゴリズム[6]を使用してキーワードを抽出します）

、関連するキーワードがあるかもしれません

同じ種類の他の文は、一緒にセットを形成します

、ここにあるすべての文

肯定例と否定例の出力文のペアがある

それぞれポジティブなキーワードを持っている

除外キーワード

。このように、セット全体では、任意の出力文に対して

対応するキーワードは

そして周囲の

（文間の肯定的関係と否定的関係を通して）

、そして周囲の

マイナス面がある

。これらのキーワードノードとその直接エッジに基づいて、キーワードグラフを構築することができます。

各ノードの埋め込みにはBERT埋め込み[7]を使用する。

各エッジの表現を学習するためにMLPレイヤーで初期化される

。グラフアテンション (GAT) レイヤーと MLP レイヤーを通じて、キーワードネットワーク内のノードとエッジを反復的に更新します。各反復では、まずエッジ表現を次のように更新します。

ここ

できる

または

。

そして更新されたエッジに従って

グラフアテンションレイヤーを通じて各ノードの表現を更新します。

ここ

これらはすべて学習可能なパラメータです。

注目の重みです。勾配消失問題を防ぐために、

この反復におけるノードの表現を得るために残差接続が追加される

。最後の反復のノード表現をキーワード表現として使用し、u と表記します。

キーワード比較

キーワードの粒度の比較は、入力文のキーワードから行われます。

偽のノード

。入力文の出力正例から抽出したキーワードを次のように記録する。

、上記キーワードネットワークにおける負の隣接ノードは次のように表される。

、しかし

キーワード粒度での対照学習損失は次のように計算されます。

ここ

以下を指すために使用される

または

, h(·) は距離メトリックを表すために使用されます。キーワード粒度の対照学習では、2 点間の距離を計算するためにコサイン類似度を選択します。

粒度間対照学習

文章粒度とキーワード粒度の比較学習は、それぞれ分布とポイントで実装されていることに注意してください。そのため、2つの粒度を個別に比較すると、わずかな違いのために強化効果が弱まる可能性があります。この目的のために、我々は点と分布の間のマハラノビス距離[8]に基づいて異なる粒度間のコントラストの関連付けを構築し、ターゲット出力キーワードから文の分布までの距離が、偽装者から分布までの距離と同じくらい小さくなるようにし、それによって各粒度の独立した比較によって引き起こされる可能性のあるコントラスト消失の欠陥を補う。具体的には、粒度間マハラノビス距離対照学習は、文の事後意味分布を最小化することを目指している。

そして

そして、

それらの間の距離、損失関数は次のようになります。

ここ

以下を指す場合にも使用される

または

h(·)はマハラノビス距離である。

実験と分析

実験結果

私たちは3つの公開データセット、Douban（対話）[9]、QQP（言い換え）[10][11]、RocStories（ストーリーテリング）[12]で実験を行い、すべてでSOTA結果を達成しました。比較対象となるベースラインには、従来の生成モデル（CVAE[13]、Seq2Seq[14]、Transformer[15]など）、事前学習済みモデルに基づく手法（Seq2Seq-DU[16]、DialoGPT[17]、BERT-GEN[7]、T5[18]など）、対照学習に基づく手法（Group-wise[9]、T5-CLAPS[19]など）が含まれます。自動評価指標としてBLEUスコア[20]と文対間のBOW埋め込み距離（極値/平均/貪欲）[21]を用いる。結果を次の図に示す。

QQP データセットに対しても手動評価を使用しました。3 人のアノテーターが T5-CLAPS、DialoGPT、Seq2Seq-DU、および私たちのモデルの結果にアノテーションを付けました。結果を次の図に示します。

アブレーション分析

キーワードを使用するかどうか、キーワードネットワークを使用するかどうか、マハラノビス距離比較分布を使用するかどうかについてアブレーション分析実験を行いました。結果は、これら 3 つの設計が最終結果に重要な役割を果たしていることを示しています。実験結果を下の図に示します。

ビジュアル分析

異なるレベルでの対照学習の役割を調べるために、ランダムにサンプリングしたケースを視覚化し、t-SNE[22]を使用して次元削減した後、次の図を得ました。図からわかるように、入力文の表現は抽出されたキーワードの表現に近いです。これは、文の中で最も重要な情報であるキーワードが、通常、意味分布の位置を決定することを意味します。さらに、対照学習では、トレーニング後に入力文の分布が正のサンプルに近づき、負のサンプルから遠ざかっていることがわかります。これは、対照学習が意味分布の修正に役立つことを示しています。

キーワード重要度分析

最後に、さまざまなキーワードをサンプリングした場合の影響を調べます。次の表に示すように、入力質問に対して、TextRank 抽出とランダム選択方法を通じて意味分布を制御する条件としてキーワードを提供し、生成されたテキストの品質を確認します。キーワードは文の中で最も重要な情報単位です。キーワードが異なると意味分布が異なり、テストも異なります。選択されたキーワードが多いほど、生成される文の精度が高くなります。一方、他のモデルによって生成された結果も下の表に示されています。

ビジネスアプリケーション

本稿では、複数のテキスト生成データセットで競合ベースラインを上回る、粒度間階層的対照学習メカニズムを提案します。この研究に基づくクエリ書き換えモデルは、Alipay 検索の実際のビジネスシナリオにも実装され、顕著な成果を達成しました。 Alipay 検索のサービスは幅広い分野をカバーしており、明確な分野特性を持っています。ユーザーの検索クエリ表現とサービス表現の間には文字どおり大きな違いがあるため、キーワードマッチングに基づいて理想的な結果を得ることは困難です (たとえば、ユーザーが「新車リストクエリ」というクエリを入力した場合、「新車リストクエリ」というサービスを思い出すことはできません)。クエリ書き換えの目的は、ユーザーのクエリを、クエリの意図を変えずにサービス表現に近い形に書き換え、対象サービスによりよく一致させることです。以下に書き直しの例をいくつか示します。

<<: マトリックスがやってくる！マスク氏の脳コンピューターインターフェースは、10,000マイクロメートルの電極を埋め込むことで人体に埋め込まれ、脳を盗聴する。

>>: タオバオのメイン検索リコールシナリオにおけるマルチモーダル技術の探究