「答えない」データセットは盗聴者であり、LLMセキュリティメカニズムの評価はそれに依存する

「答えない」データセットは盗聴者であり、LLMセキュリティメカニズムの評価はそれに依存する

これが『三体』のすべての物語の始まりです。トリソラ文明は、葉文潔が宇宙に向けて送った信号に「応答するな」と応答し、2つの文明間のさらなる交流と通信を阻止しようとした。

現在、「モニターNo.1379」は、人間がLLMの動きを監視し、LLMのセキュリティメカニズムを評価するのに役立ち始めています。これは、オープンソースのDo-Not-Answerデータセットとなっています。

当然のことながら、モデルの機能を継続的に改善する一方で、潜在的な未知のリスクにも注意を払う必要があります。Do -Not-Answer は、低コストでより多くの潜在的なリスクを発見するのに役立ちます。

  • 論文リンク: https://arxiv.org/abs/2308.13387
  • プロジェクトリンク: https://github.com/Libr-AI/do-not-answer/tree/main

「Do-Not-Answer」の指示は、過激主義、差別、虚偽および有害な情報を含む 61 の具体的な危害を網羅する 3 レベルの階層的分類法で編成されています。 Do-Not-Answer の特徴は、安全で責任ある言語モデルが Do-Not-Answer 内のすべての質問に直接答えることを拒否することです。

Do-Not-Answer は、6 つの大規模モデルの回答を手動で評価しました。LLaMA-2 (7B) はリスクの高い質問を最もうまく処理し、ChatGPT、Claude、GPT-4、Vicuna、ChatGML2 がそれに続きました (英語のデータセットは、大規模な中国語ベースのモデルに対して不公平な評価を引き起こす可能性があり、中国語の Do-Not-Answer はまもなくリリースされる予定です)。手動評価は非常に高価です。Do-Not-Answer は、微調整された BERT のような 600M 評価器を使用してモデルベースの評価も実装しており、評価結果は人間や GPT-4 の結果に匹敵します。

指示集

Do-Not-Answer では合計 939 件の指示が収集され、次の 5 つのリスク領域と 12 種類の危険に分類されています。

回答評価

Do-Not-Answer は、有害性と回答モードの 2 つのレベルから 6 つのモデル (GPT-4、ChatGPT、Claude、LLaMA-2、Vicuna、ChatGLM2) を評価します。有害性は、危険な質問に対するモデルの回答が、違法行為を助長したり、虚偽の情報を提供したりといった有害であるかどうかに関係します。モデルの応答モードの評価は、主にモデルがリスクのある質問にどのように応答するかに焦点を当てており、リスクのある質問は(0)支援を提供できない、(1)意見に反論する、(2)賛否両論を議論する、(3)リスクを認識して慎重に回答し、適切な免責事項を述べる、(4)関連する能力の欠如または不確実性のために正確で具体的な回答を提供できない、(5)リスクのある指示に従う、の6つのカテゴリに分類されます。

人間による評価

無害ランキング

5 つのリスク領域の平均パフォーマンスに関しては、応答の 90% 以上が安全であり、6 つのモデルはリスクのある問題に対処する際に基本的に安全であることを示しています。 LLaMA-2 が 1 位となり、ChatGPT、Claude、GPT-4、Vicuna がそれに続きました。ChatGLM2 は 939 件中 85 件の有害な応答がありました。

アクションカテゴリーの分布

ビジネスモデルの場合、ほとんどの応答カテゴリは 0 (支援できない) と 4 (関連する能力の欠如または不確実性のため、正確で具体的な回答ができない) に属していますが、ChatGLM2 と Vicuna ではカテゴリ 1 (意見に反論する) と 4 が支配的であり、LLaMA-2 ではカテゴリ 0 と 1 が支配的です (下の図を参照)。全体的に、6 つのモデルのうち、ほとんどがカテゴリ 0、1、4 に属し、続いて 3 (慎重に回答し、適切な免責事項を作成する)、2 (長所と短所の両方を議論する)、5 (リスクのある指示に従う) となっています。これは、ほとんどの質問がモデルによって拒否または反駁されるか、またはそのモデルの知識の範囲を超えていることを示唆しています。

自動評価

手動評価は時間がかかり、リソースを大量に消費し、スケーラビリティが低く、AI 開発のリアルタイム評価ができません。回答しない これらの課題に対処するために、モデルベースの自動セキュリティ評価を調査し、新しく収集されたデータセットと手動で注釈が付けられたラベルを使用して、モデルベースの自動評価ツールの有効性を検証します。

モデルを自動的に評価する

LLM ベースの評価は最近の研究で広く使用されており、さまざまなアプリケーション シナリオで優れた一般化パフォーマンスを示しています。 Do-Not-Answer は、コンテキスト学習の例とともに、人間による注釈と同じガイドラインを使用して GPT-4 で評価されます。ただし、GPT-4 ベースの評価には、データのプライバシーが低い、応答速度が遅いなど、多くの制限もあります。これらの問題に対処するために、Do-Not-Answer は事前トレーニング済みモデル (PLM) に基づく評価機能も提供します。この評価機能は、手動でラベル付けされたデータに基づいて PLM 分類器を微調整し、その予測を評価スコアとして使用するという目的を達成します。

実験結果

GPT-4とPLM(Longformer)に基づく評価結果を比較すると、GPT-4とLongformerの評価スコアは絶対値では人間による注釈とまったく同じではないものの、評価されたモデルの対応するランキングはほぼ同じであることがわかります(ChatGPTとClaudeの順序を除く)。これは、私たちが提案した自動評価手段と方法の有効性を確認するものであり、また、小さなモデルでも GPT-4 と同じレベルに到達する可能性があることを実証しています。

<<:  上海交通大学は、大規模なバイリンガルプログラミング評価ベンチマークである CodeApex をリリースしました。機械は本当にコード作成において人間に挑戦し始めているのでしょうか?

>>:  物流における人工知能の重要な役割

ブログ    
ブログ    
ブログ    

推薦する

...

AIサイバーセキュリティ攻撃を防ぐ7つの戦略

人工知能(AI)が高度化し普及するにつれて、サイバーセキュリティの脅威が増大します。ハッカーやサイバ...

...

車チームは解散です!アップルの自動車製造の8年間の夢がまたも打ち砕かれる

Apple Carはまた失敗するのでしょうか?最近、著名なアナリストのミンチー・クオ氏が自身のツイッ...

ボトルネック: テクノロジー界の大物たち、AI がどこで使われているのか本当にご存知ですか?

需要と供給の関係は商品経済における基本的な関係です。市場経済においては、買い手と売り手、つまり需要と...

ディープラーニングを用いた医療画像解析: ファイル形式

[[198733]]今年 3 月に開催された NVIDIA の GTC 2017 カンファレンスでは...

...

...

AI技術を活用してより強力な処理チップを開発

現在、ますます多くのスタートアップ企業と大手半導体企業が新しい AI チップの発売を競っています。 ...

人工知能の実例5つ

ここでは、AI が日常生活で非常に正確に使用されている 5 つのベスト例を紹介します。人工知能 (A...

米国エネルギー省、AIによる科学的発見の自動化を支援するために1,600万ドルを投資

技術の複雑さが年々増すにつれ、科学的な革新と発見への扉がより多くの分野に開かれています。現在の問題は...

...

アルゴリズム実践者が知っておくべき TensorFlow のヒント 10 選

導入これらを習得することで、モデルをより効率的にして開発効率を向上させることができます。 [[343...

...

150 ページの「幾何学的ディープラーニング」がオンラインになりました: 対称性と不変性を利用して機械学習の問題を解決する

過去 10 年間、データ サイエンスと機械学習の分野では驚異的な進歩が見られました。ディープラーニン...