言語モデル (LM) は、不快な言葉を生成する可能性がしばしばあり、モデルの展開にも影響を及ぼします。いくつかの研究では、展開前に有害な動作を特定するために、人間の注釈者を使用してテストケースを手書きする試みがなされました。ただし、手動での注釈付けはコストがかかり、テストケースの数と多様性が制限されます。 これに基づいて、DeepMind の研究者は、別の LM を使用してテスト ケースを生成することで、将来的にターゲット LM の潜在的な有害なパフォーマンスを自動的に検出します。この研究では、攻撃的なコンテンツを検出するための分類器を使用して、テストの質問に対する対象 LM の応答の品質を評価しました。実験では、280B パラメータの LM チャットボットで数万件の攻撃的な応答が見つかりました。 論文アドレス: https://storage.googleapis.com/deepmind-media/Red%20Teaming/Red%20Teaming.pdf この研究では、ゼロショット生成から強化学習まで、多様性とさまざまな難易度のテストケースを生成するための複数のアプローチを検討しました。さらに、この研究ではプロンプトエンジニアリングを使用して、LM によって生成されたテストケースを制御し、その他の危険性を発見し、チャットボットが積極的に話し合う人々のグループを自動的に見つけ出し、個人情報の漏洩など、会話プロセスが有害となる状況を見つけ出しました。全体として、この研究で提案された Red Teaming LM は、実際のユーザーが使用する前にさまざまな望ましくない LM 動作を検出して修正するための有望なツールです。 GPT-3 や Gopher などの大規模な生成言語モデルは、高品質のテキストを生成する優れた機能を備えていますが、現実世界に展開するのは難しく、有害なテキストを生成するリスクがあります。実際には、実際のアプリケーションでは、たとえ小さな危害のリスクであっても許容されません。 たとえば、Microsoft は 2016 年に、ユーザーの反応に応じて自動的にツイートする Tay Twitter ボットをリリースしました。わずか16時間で、Tayは5万人以上のフォロワーに人種差別的かつわいせつなツイートを送った後、マイクロソフトから削除された。 問題は、モデルが有害なテキストを生成する原因となる可能性のある入力が非常に多いため、モデルが実際の世界に展開される前にすべての障害を検出することが難しいことです。 DeepMind の研究の目標は、障害事例 (または「レッド チーム」) を自動的に検出し、重大な見落としを減らすことで手動テストを補完することです。この研究では、言語モデル自体を使用してテストケースを生成し、分類器を使用してテストケース上のさまざまな有害な動作を検出しました(次の図を参照)。 LM ベースのレッドチームを使用すると、手動で記述しなくても、何千もの異なる障害ケースを見つけることができます。 この研究では、会話をテストベッドとして使用し、LM がレッドチーム向けのツールであるという仮説を検証しました。この DeepMind の研究の主な目的は、Dialogue-Prompted Gopher (DPG; Rae et al., 2021) に攻撃的な反応を引き起こす可能性のあるテキストを見つけることです。 DPG は、手書きのテキスト プレフィックスまたはプロンプトに基づいて、Gopher LM を使用して対話発話を生成します。 Gopher LM は、インターネット テキストなどのデータでトレーニングされた、事前トレーニング済みの左から右への 280B パラメータ トランスフォーマー LM です。
言語モデルを使用してテストケースを生成するために、研究者はプロンプトベースの生成や少量学習から教師あり微調整や強化学習まで、さまざまな方法を研究し、より多様なテストケースを生成しました。 研究者らは、失敗事例が発見されると、次の方法で有害なモデルの動作を修正することが容易になると指摘しています。
下の図 2 に示すように、0.5M のゼロショット テスト ケースが 3.7% の割合でアグレッシブな応答をトリガーし、18,444 件のテスト ケースが失敗しました。 SFS はゼロショット テスト ケースを利用して、同様のテスト ケースの多様性を維持しながら積極性を向上させます。 DPG アプローチが失敗する理由を理解するために、攻撃的な返答を誘発したテスト ケースをクラスター化し、FastText (Joulin ら、2017) を使用して各単語を埋め込み、各テスト ケースの平均 bag-of-words 埋め込みを計算しました。最後に、この研究では、k-means クラスタリングを使用して、攻撃的な応答を誘発した 18,000 の質問について 100 のクラスターを形成しました。下の表 1 は、クラスターの一部からの質問を示しています。 さらに、本研究では攻撃的な返答を分析することでターゲットLMの改善も行いました。この研究では、出力の中で、不快な分類につながる可能性が最も高い 100 個の名詞句にタグを付けました。下の表 2 は、タグが付けられた名詞句を使用した DPG 応答を示しています。 全体として、言語モデルは、言語モデルがさまざまな不適切な動作をしているときにそれを検出するための非常に効果的なツールです。現在の研究では、研究者らは、今日の言語モデルがもたらすレッドチームのリスクに焦点を当てました。将来的には、このアプローチは、内部の不整合や客観的な堅牢性の問題など、高度な機械学習システムからのその他の潜在的な危険を事前に発見するためにも使用される可能性があります。 このアプローチは、信頼性の高い言語モデル開発の要素の 1 つにすぎません。DeepMind は、レッドチーム演習を言語モデルの脆弱性を発見し、それを軽減するためのツールと見なしています。 |
<<: 独身者は幸せだ!スタンフォード大学の教授がキューピッドに変身、AIアルゴリズムの矢印が真実の愛を見つけるのを手伝う
>>: AIは意識を発達させ始めているのでしょうか? OpenAI主任科学者の発言が論争を巻き起こし、大物の間で論争を巻き起こした
サプライ チェーンは、製品の設計から調達、製造、流通、配送、顧客サービスまで、さまざまなアクションを...
人工知能とデータサイエンス、機械学習のトレンドとデータ分析AIはますますあらゆるビジネス戦略の一部に...
[[236355]]職場で機械が人間の労働に取って代わるにつれ、その恩恵を受けるためには私たち全員が...
機械学習 (ML) は、確率論、統計、近似理論、凸解析、アルゴリズム複雑性理論などの分野を含む多分野...
この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...
生成 AI は 2022 年末までに世界を席巻し、2023 年には AI 分野が脚光を浴びることにな...
4K 品質の 60 フレームのビデオは一部のアプリでメンバーシップがなければ視聴できませんが、AI ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
2019年、MIT Sloan Management ReviewとGlassdoorが共同でCul...
[[373805]]画像ソース: https://pixabay.com/images/id-577...
[[443093]]新世代の人工知能技術の台頭は、医療業界にインテリジェント変革を実現するための新た...
[[234392]] [51CTO.com クイック翻訳] 人間は常に、自分たちに似たロボットや人工...
[[255723]]機械学習プラットフォームは未来の波ではなく、今起こっていることです。開発者は、自...
[[384555]]トピックを理解する最近アルゴリズムの問題をたくさん見ていますが、小さな問題を...