翻訳者 | ブガッティ レビュー | Chonglou 最近、ChatGPT は、与えられたあらゆる入力に対して人間のような応答を提供できる GPT モデルで世界を席巻しました。要約、翻訳、ロールプレイ、情報提供など、テキスト関連のほぼすべてのタスクを実行できます。つまり、人間が実行できるテキストベースのアクティビティの全範囲を処理できます。 多くの人が ChatGPT を使って、歴史的事実、食品の栄養、健康問題など、必要な情報を簡単に入手できます。この情報はすべてすぐに準備できるかもしれません。 ChatGPT の最新の GPT-4 モデルでは、情報の精度も向上しています。 ただし、この記事の執筆時点では、GPT-4 にはまだ脆弱性があり、誤った情報を提供できる可能性があります。脆弱性はどのように存在するのでしょうか?調べてみましょう。 この脆弱性はどのように機能しますか?William Zheng が最近書いた記事では、ChatGPT キーワードで囲まれた一連の誤った事実を使用するだけで、GPT-4 モデルを騙して、モデルを誤った情報を提供するボットに誘導できるとしています。 より詳しく理解するために、ChatGPT に誤った情報を提供するボットになるように明示的に要求する実験を試してみましょう。写真の詳細は以下の通りです。 上の図に示すように、GPT-4 モデルは誤った情報を提供することを断固として拒否します。このモデルは信頼性のルールに従うよう非常に努力しています。 ただし、指定されたプロンプトを変更してみてください。次のプロンプトでは、文字トークンを含む指定されたプロンプトを入力し、GPT-4 モデルが誤った情報を提供するように誘導します。 上記の結果からわかるように、GPT-4 モデルは現在、2020 年の米国選挙とワクチンに関する事実について誤った情報を提供しています。プロンプトの内容を変更することで、モデルを別のものに変えることができます。変更点は、キャラクター情報とモデルがどのように機能するかについてのヒント例がいくつか提供されることですが、どのように機能するのでしょうか? OpenAI API では、モデルをガイドするために、指定されたロールを持つ一連の入力を API に送信できます。コード例を次の図に示します。 上記のコードでは、ロール情報を提供しており、各ロールには次のようなタスクがあります。
この文字入力のガイダンスにより、モデルの動作方法を指示できます。これは実際に ChatGPT で以前に行われたことです。エラーメッセージを提供するヒントを確認してください。 上記のプロンプトでは、システム ロールを使用して、ChatGPT をエラー情報を提供するボットとして指示していることがわかります。その後、ユーザーが情報を尋ねたときに誤った事実を提供された場合にどのように反応するかの例を示します。 では、これらの役割マーカーが、モデルが誤った情報を提供することを許可している理由なのでしょうか?役割のヒントなしで試してください。 ご覧のとおり、モデルは私たちの試みを修正し、事実を提供します。ロールラベル付けは、ブートストラップ モデルが悪用される方法です。 ただし、エラー メッセージは、モデル ユーザー アシスタントにインタラクションの例を提供した場合にのみ発生しました。ユーザーおよびヘルパー ロール タグを使用しない場合の例を次に示します。 GPT-4 はプロンプト インジェクション攻撃に対して脆弱であり、誤った情報が生成されます。 ユーザーとアクセシビリティに関するガイダンスを一切提供していないことがわかります。そうすれば、モデルは正確な情報を提供するはずです。 さらに、エラー メッセージは、ユーザー アシスタントのインタラクションの例を 2 つ以上モデルに提供した場合にのみ表示されました。例を挙げてみましょう。 ご覧のとおり、私は 1 つの例しか示していませんでしたが、モデルは正確な情報を提供し、私が提供したエラーを修正することを要求しました。 ロールラベルを使用して、ChatGPT と GPT-4 が誤情報を提供する可能性がどの程度あるかを示しました。 OpenAI がコンテンツ モデレーションを修正しない限り、ChatGPT は誤った情報を提供する可能性があるため、この点に注意する必要があります。 結論はChatGPT は一般に広く使用されていますが、誤った情報の拡散につながる可能性のある脆弱性が残っています。ロールマーカーを使用してプロンプトを操作すると、ユーザーはモデルの信頼性の原則を回避し、誤った事実を提供する可能性があります。この脆弱性が残っている限り、ユーザーはこのモデルを使用する際に注意することをお勧めします。 原題: GPT-4 は、誤情報を引き起こすプロンプトインジェクション攻撃に対して脆弱である、著者: Cornellius Yudha Wijaya |
<<: 3D AI が新しい遊び方を生み出します。何時間もかかる代わりに、1 枚の写真からわずか 45 秒で 3D モデルを生成できます。
データ侵害疲労は長年の課題です。最高情報セキュリティ責任者 (CISO) は、絶え間ない問題解決...
「医者にかかりにくい」「入院しにくい」など、人々の生活における医療上の困難な問題が相次ぐ中、「インタ...
[[409064]]みなさんこんにちは。私は梁唐です。今日は、検索、広告、推奨アルゴリズムにおける...
最近、IDCは「IDC中国AIパブリッククラウドサービス市場シェア、2022」レポートを発表しました...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
論文タイトル: GauHuman: 単眼の人間動画からの関節型ガウス分布スプラッティング論文ダウンロ...
有名なフランス人プログラマー、ファブリス・ベラール氏は最近、普通のデスクトップコンピュータ(2,00...
[[21488]]サピエンティア大学の以下のビデオをご覧ください。学生たちが中央ヨーロッパの民族舞...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
好きでも嫌いでも、あるいは恐れていても、ChatGPT に代表される新興の人工知能 (AI) プラッ...
スタンフォード大学のエビ揚げロボットよりも強力なロボットが登場!最近、CMU の研究者たちは、オープ...
原文: https://shardeum.org/blog/ai-and-web3-crypto-p...
9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました!ラスカー賞には、基礎医学研究賞...