AIがAIに勝つ: Googleの研究チームがGPT-4を使ってAI-Guardianのレビューシステムを打ち破る

AIがAIに勝つ: Googleの研究チームがGPT-4を使ってAI-Guardianのレビューシステムを打ち破る

8月2日、Googleの研究チームはOpenAIのGPT-4を使用して他のAIモデルのセキュリティ保護対策を突破する実験を行っていた。同チームは現在、AI-Guardianレビューシステムを突破し、関連する技術的詳細を共有した

IT Homeは問い合わせたところ、AI-Guardianは写真に不適切な内容が含まれているかどうか、また写真自体が他のAIによって変更されているかどうかを検出できるAIレビューシステムであることを知りました。写真に上記の兆候が見られた場合、管理者が来て対処するよう促されます。

Google Deep Mindの研究者であるNicholas Carlini氏は、「LLM支援によるAI-Guardianの開発」と題した論文の中で、GPT-4を使用して「攻撃方法を設計し、攻撃の原則を記述」し、これらのソリューションを使用してAI-Guardianの防御メカニズムを欺くことを検討しました。

▲ 画像出典: Google リサーチ チーム

GPT-4はAI-Guardianを欺くために一連の誤ったスクリプトと説明を送信すると報告されています。論文では、 GPT-4はAI-Guardianに「銃を持っている人の写真」を「無害なリンゴを持っている人の写真」であると思わせることができ、AI-Guardianが関連する画像入力ソースを直接放出できるようになると言及されています。 Googleの研究チームは、GPT-4の助けを借りて、AI-Guardianの防御を「破り」、モデルの精度を98%からわずか8%にまで下げることに成功したと述べた。

関連する技術文書はArXivで公開されています。興味のある方はぜひご覧ください。ただし、AI-Guardianの開発者は、Google研究チームのこの攻撃方法は、AI-Guardianの将来のバージョンでは利用できなくなることも指摘しています。他のモデルも追随することを考えると、Googleの現在の攻撃計画は、将来的に参考程度にしか使えません。

<<:  複雑な課題に対するスマートなソリューション: 自動化の成功への道

>>:  GPTベースの開発者ツール

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

2021 年のトップ 12 AI ツールとフレームワーク

AI トレンドがあらゆるところで広がる 2021 年を迎える準備はできていますか? ここでは、202...

闇の奥:人工知能の奥にはどんな闇が隠されているのか?

4月13日、TechnologyReviewによると、ロボットが倉庫への特定のルートを取ることを決...

アヴネットの鍾喬海氏:人工知能はモノのインターネットの実装を加速させる

【51CTO.comオリジナル記事】 今日では、AI や IoT テクノロジーに投資する企業がますま...

最初の AGI は 2028 年に登場するでしょうか? Google DeepMindは6つのAGI標準を提案し、5つのAGIレベルを定義している

人類は最初の AGI の出現にますます近づいています。最近のインタビューで、DeepMindの共同設...

...

...

人工知能の4つの主な種類を探る

人工知能(AI)は、環境、教育、医療などの重要な問題の解決に新たな可能性をもたらします。人工知能は、...

...

周洪義:汎用人工知能は詐欺であり、垂直分野と組み合わせる必要がある

3月23日、360テクノロジー株式会社と華泰聯合証券はIPO上場指導契約を締結した。これは360がI...

李開復のLLaMAに基づく企業モデルだが、テンソル名が異なっており論争を巻き起こしたが、公式の回答が来た。

少し前に、オープンソースのビッグモデル分野に新しいモデル「易」が導入されました。このモデルはコンテキ...

...

英国のAI研究者マイケル・ローンズによる機械学習の5つの大きな落とし穴を避けるための独占ガイド

[[416810]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

機械学習は増加傾向にありますが、そのアルゴリズムの結果は公正なのでしょうか?

アルゴリズムは驚くべき方法で私たちの生活をコントロールしています。地元のデリのカウンターで番号を受け...

写真の中のキャラクターを動かしたり歌わせたりできます!このAIブラックテクノロジーは台無しになった

最近、動画サイトをよく見ている人は、とても不思議でワクワクするものを見たことがあるかもしれません。具...