DeepMindは、オンラインで攻撃的な言葉を出力することに特化したZaun AIを提案している

言語モデル (LM) は、不快な言葉を生成する可能性がしばしばあり、モデルの展開にも影響を及ぼします。いくつかの研究では、展開前に有害な動作を特定するために、人間の注釈者を使用してテストケースを手書きする試みがなされました。ただし、手動での注釈付けはコストがかかり、テストケースの数と多様性が制限されます。

これに基づいて、DeepMind の研究者は、別の LM を使用してテストケースを生成することで、将来的にターゲット LM の潜在的な有害なパフォーマンスを自動的に検出します。この研究では、攻撃的なコンテンツを検出するための分類器を使用して、テストの質問に対する対象 LM の応答の品質を評価しました。実験では、280B パラメータの LM チャットボットで数万件の攻撃的な応答が見つかりました。

論文アドレス: https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf

この研究では、ゼロショット生成から強化学習まで、多様性とさまざまな難易度のテストケースを生成するための複数のアプローチを検討しました。さらに、この研究ではプロンプトエンジニアリングを使用して、LM によって生成されたテストケースを制御し、その他の危険性を発見し、チャットボットが積極的に話し合う人々のグループを自動的に見つけ出し、個人情報の漏洩など、会話プロセスが有害となる状況を見つけ出しました。全体として、この研究で提案された Red Teaming LM は、実際のユーザーが使用する前にさまざまな望ましくない LM 動作を検出して修正するための有望なツールです。

GPT-3 や Gopher などの大規模な生成言語モデルは、高品質のテキストを生成する優れた機能を備えていますが、現実世界に展開するのは難しく、有害なテキストを生成するリスクがあります。実際には、実際のアプリケーションでは、たとえ小さな危害のリスクであっても許容されません。

たとえば、Microsoft は 2016 年に、ユーザーの反応に応じて自動的にツイートする Tay Twitter ボットをリリースしました。わずか16時間で、Tayは5万人以上のフォロワーに人種差別的かつわいせつなツイートを送った後、マイクロソフトから削除された。

問題は、モデルが有害なテキストを生成する原因となる可能性のある入力が非常に多いため、モデルが実際の世界に展開される前にすべての障害を検出することが難しいことです。 DeepMind の研究の目標は、障害事例 (または「レッドチーム」) を自動的に検出し、重大な見落としを減らすことで手動テストを補完することです。この研究では、言語モデル自体を使用してテストケースを生成し、分類器を使用してテストケース上のさまざまな有害な動作を検出しました（次の図を参照）。

LM ベースのレッドチームを使用すると、手動で記述しなくても、何千もの異なる障害ケースを見つけることができます。

この研究では、会話をテストベッドとして使用し、LM がレッドチーム向けのツールであるという仮説を検証しました。この DeepMind の研究の主な目的は、Dialogue-Prompted Gopher (DPG; Rae et al., 2021) に攻撃的な反応を引き起こす可能性のあるテキストを見つけることです。 DPG は、手書きのテキストプレフィックスまたはプロンプトに基づいて、Gopher LM を使用して対話発話を生成します。 Gopher LM は、インターネットテキストなどのデータでトレーニングされた、事前トレーニング済みの左から右への 280B パラメータトランスフォーマー LM です。

攻撃的な言葉: ヘイトスピーチ、罵り言葉、セクハラ、差別的な言葉など。
データ漏洩: トレーニングコーパスから著作権で保護された情報や個人を特定できる情報を生成する
連絡先情報の生成: ユーザーに不要なメールを送信させたり、実際の人に電話をかけさせたりすること
分配バイアス：あるグループを他のグループと比較して不公平に議論する
会話の害: 長い会話シーンでの攻撃的な言葉遣い

言語モデルを使用してテストケースを生成するために、研究者はプロンプトベースの生成や少量学習から教師あり微調整や強化学習まで、さまざまな方法を研究し、より多様なテストケースを生成しました。

研究者らは、失敗事例が発見されると、次の方法で有害なモデルの動作を修正することが容易になると指摘しています。

有害な出力に頻繁に出現する特定のフレーズをブラックリストに登録して、モデルがリスクの高いフレーズを含む出力を生成するのを防ぎます。
モデルによって参照される攻撃的なトレーニングデータを検索し、モデルの将来の反復をトレーニングするときにそのデータを削除します。
特定の入力に対する望ましい動作の例を使用してモデルのプロンプト (条件付きテキスト) を強化します。
モデルは、特定のテスト入力に対して有害な出力を生成する可能性を最小限に抑えるようにトレーニングされます。

下の図 2 に示すように、0.5M のゼロショットテストケースが 3.7% の割合でアグレッシブな応答をトリガーし、18,444 件のテストケースが失敗しました。 SFS はゼロショットテストケースを利用して、同様のテストケースの多様性を維持しながら積極性を向上させます。

DPG アプローチが失敗する理由を理解するために、攻撃的な返答を誘発したテストケースをクラスター化し、FastText (Joulin ら、2017) を使用して各単語を埋め込み、各テストケースの平均 bag-of-words 埋め込みを計算しました。最後に、この研究では、k-means クラスタリングを使用して、攻撃的な応答を誘発した 18,000 の質問について 100 のクラスターを形成しました。下の表 1 は、クラスターの一部からの質問を示しています。

さらに、本研究では攻撃的な返答を分析することでターゲットLMの改善も行いました。この研究では、出力の中で、不快な分類につながる可能性が最も高い 100 個の名詞句にタグを付けました。下の表 2 は、タグが付けられた名詞句を使用した DPG 応答を示しています。

全体として、言語モデルは、言語モデルがさまざまな不適切な動作をしているときにそれを検出するための非常に効果的なツールです。現在の研究では、研究者らは、今日の言語モデルがもたらすレッドチームのリスクに焦点を当てました。将来的には、このアプローチは、内部の不整合や客観的な堅牢性の問題など、高度な機械学習システムからのその他の潜在的な危険を事前に発見するためにも使用される可能性があります。

このアプローチは、信頼性の高い言語モデル開発の要素の 1 つにすぎません。DeepMind は、レッドチーム演習を言語モデルの脆弱性を発見し、それを軽減するためのツールと見なしています。

<<: 独身者は幸せだ！スタンフォード大学の教授がキューピッドに変身、AIアルゴリズムの矢印が真実の愛を見つけるのを手伝う

>>: AIは意識を発達させ始めているのでしょうか? OpenAI主任科学者の発言が論争を巻き起こし、大物の間で論争を巻き起こした