8月2日、Googleの研究チームはOpenAIのGPT-4を使用して他のAIモデルのセキュリティ保護対策を突破する実験を行っていた。同チームは現在、AI-Guardianレビューシステムを突破し、関連する技術的詳細を共有した。 IT Homeは問い合わせたところ、AI-Guardianは写真に不適切な内容が含まれているかどうか、また写真自体が他のAIによって変更されているかどうかを検出できるAIレビューシステムであることを知りました。写真に上記の兆候が見られた場合、管理者が来て対処するよう促されます。 Google Deep Mindの研究者であるNicholas Carlini氏は、「LLM支援によるAI-Guardianの開発」と題した論文の中で、GPT-4を使用して「攻撃方法を設計し、攻撃の原則を記述」し、これらのソリューションを使用してAI-Guardianの防御メカニズムを欺くことを検討しました。 ▲ 画像出典: Google リサーチ チーム GPT-4はAI-Guardianを欺くために一連の誤ったスクリプトと説明を送信すると報告されています。論文では、 GPT-4はAI-Guardianに「銃を持っている人の写真」を「無害なリンゴを持っている人の写真」であると思わせることができ、AI-Guardianが関連する画像入力ソースを直接放出できるようになると言及されています。 Googleの研究チームは、GPT-4の助けを借りて、AI-Guardianの防御を「破り」、モデルの精度を98%からわずか8%にまで下げることに成功したと述べた。 関連する技術文書はArXivで公開されています。興味のある方はぜひご覧ください。ただし、AI-Guardianの開発者は、Google研究チームのこの攻撃方法は、AI-Guardianの将来のバージョンでは利用できなくなることも指摘しています。他のモデルも追随することを考えると、Googleの現在の攻撃計画は、将来的に参考程度にしか使えません。 |
<<: 複雑な課題に対するスマートなソリューション: 自動化の成功への道
【51CTO.com クイック翻訳】継続的インテグレーション (CI)/継続的デリバリー (CD)...
[[440377]]はじめに12月7日、英国のドローン戦争ウェブサイトは、人工知能が各国の軍事部門に...
[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能...
Meta は 9 月 4 日に、研究者がコンピューター ビジョン モデルのバイアスを確認するのに役立...
翻訳者 |ブガッティレビュー | Chonglou MusicGen を使用すると、誰でもテキスト ...
テクノロジー業界にとって、2018年は忘れられない年になる運命にある。結局、シェアサイクルのバブルは...
コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、科学技術革命と産業変革の新たな局面の始まりに伴い、わが国の物流業界は情報化、デジタル化、インテ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...