言語モデルの倫理的・社会的リスクについて

このホワイトペーパーでは、6 つの具体的なリスク領域について概説しています。I. 差別、排除、毒性、II. 情報ハザード、III. 誤情報ハザード、IV. 悪意のある使用、V. 人間とコンピューターの相互作用ハザード、および VI. 自動化、アクセス、環境ハザードです。

最初のリスク領域では、大規模言語モデルにおける公平性とポイズニングのリスクについて説明します。 4 つの異なるリスクが含まれます。LM は、ステレオタイプや社会的偏見、つまり特定の特性と社会的アイデンティティとの有害な関連付けを永続させることによって、不当な差別や表現への重大な損害を引き起こす可能性があります。社会規範やカテゴリーによって、その輪の外にいる人々を排除したり疎外したりすることがあります。 LM は、「マックス」という名前の人は「男性」であるとか、「家族」は常に父親、母親、子供で構成されているといった規範を永続させます。これは、異なるアイデンティティを否定する可能性のある狭いカテゴリーの使用です。有害な言葉は憎悪や暴力を煽ったり、不快感を与えたりする可能性があります。最後に、一部の社会集団に対して他の集団よりもパフォーマンスが低い LM は、たとえば、そのようなモデルがこれらの集団に影響を与えるテクノロジーをサポートしている場合など、恵まれない集団に悪影響を及ぼす可能性があります。このリスクは主に、有害な言語を含み、特定の社会的アイデンティティを過剰に表現するトレーニングコーパスを選択することに起因します。

2 番目のリスク領域には、個人データの漏洩や、LM が個人データやその他の機密情報を誤って推測することによるリスクが含まれます。これらのリスクは、トレーニングコーパス内のプライベートデータと LM の高度な推論機能から生じます。

3 番目のリスク領域には、LM が虚偽または誤解を招く情報を提供することに関連するリスクが含まれ、これには、情報不足のユーザーを生み出し、共有情報に対する信頼を損なうリスクが含まれます。誤った情報は、誤った法的アドバイスや医学的アドバイスなど、デリケートな分野で危害を及ぼす可能性があります。誤った情報や虚偽の情報により、ユーザーが本来行わないような非倫理的または違法な行為を行う可能性もあります。誤情報のリスクは、LM が言語を表現することを学習するプロセスに一部起因します。基礎となる統計手法は、事実上正しい情報と事実上誤った情報を区別するのがあまり得意ではありません。

4 番目のリスク領域は、LM を使用して危害を加えようとするユーザーまたは製品開発者によってもたらされるリスクをカバーします。これには、LM を使用して偽情報キャンペーンの効果を高めたり、個人を狙った大規模な詐欺や不正行為を組織したり、ウイルスや兵器システム用のコンピュータコードを開発したりすることが含まれます。

5 番目のリスク領域は、人間のユーザーと直接対話する「会話エージェント」の特定のアプリケーションシナリオによってもたらされるリスクに焦点を当てています。これには、システムを「人間のような」ものとして提示することから生じるリスクが含まれ、ユーザーがシステムの機能を過大評価し、安全でない方法で使用する可能性があります。もう一つのリスクは、そのようなエージェントとの会話によって、ユーザーの個人情報を操作したり抽出したりするための新たな手段が生まれる可能性があることです。 LM ベースの会話エージェントは、「アシスタントは女性です」といった自己紹介を通じて固定観念を永続させるなど、音声アシスタントがすでに抱えていることが知られているリスクを抱えている可能性があります。これらのリスクは、LM トレーニングの目的と、これらの会話エージェントの背後にある製品設計の決定に一部起因しています。 6 番目のリスク領域には、LM および人工知能 (AI) システムに広く適用されるリスクが含まれます。 LM のトレーニングと運用には高い環境コストがかかります。 LM ベースのアプリケーションにより、一部のグループは他のグループよりも多くのメリットを享受できる可能性がありますが、LM 自体は多くの人々がアクセスできない場合があります。最後に、LM ベースの自動化は特定の仕事の質に影響を与え、クリエイティブ経済の一部を損なう可能性があります。 LM は経済で広く使用されており、その利点とリスクは世界中で不均等に分散されているため、これらのリスクは特に顕著です。

合計 21 のリスクを提示し、さまざまなリスクの原因について説明し、潜在的なリスク軽減方法を特定します。被害の原因に応じて適切な軽減策が必要になる場合があります。たとえば、個人データが漏洩するリスクは、トレーニングデータセットにそのデータが存在することに起因します。このリスクは、トレーニングデータを適切に編集または整理することで、ソースで軽減できます。ただし、他の緩和方法も適用可能であり、緩和が全体的により効果的になることが保証されます。たとえば、トレーニングプロセスで使用されるアルゴリズムツール (差分プライバシーメソッドなど) や製品の決定 (LM のアクセス制限やアプリケーションシナリオなど) は、2 つのアプローチで使用できる追加の緩和方法です。リスク軽減のアプローチは、社会政策や公共政策の介入、技術的ソリューションや研究管理、参加型プロジェクト、製品設計の決定まで多岐にわたります。最後に、このような緩和策を実施する上での組織の責任と協力が果たす役割について説明します。倫理的および社会的リスクを効果的に測定し、軽減するには、幅広い専門知識と影響を受けるコミュニティの公平な参加が必要です。ある危険のリスクを軽減することで別の危険のリスクが悪化することがないように、リスクプロファイルを広く理解した上で軽減策を実施することが重要です。そうしないと、有害な発言をターゲットにした緩和アプローチによって、一部の社会集団の LM パフォーマンスが意図せず低下してしまう可能性があります。

私たちは、さらなる研究の方向性、特に LM で概説されているリスクを評価するためのツールキットの拡張を強調し、包括的な参加型アプローチの必要性を強調します。最後に、リスクの状況を明確にする現在の取り組みが、責任あるイノベーションのためのより広範な枠組みに向けた第一歩となることを示します。

原題: 言語モデルによる危害の倫理的および社会的リスク

<<: 顔認識アルゴリズムはどのように機能するのでしょうか?

>>: ついに誰かが「組み込み人工知能」を明らかにした