マイクロソフト、AI モデルのリスクを発見するツール「PyRIT」を発表

マイクロソフト、AI モデルのリスクを発見するツール「PyRIT」を発表

ハッキング技術を使ってサイバーセキュリティの問題を明らかにする任務を負ったマイクロソフトのチームは、開発者が人工知能モデルのリスクを見つけるのに役立つ社内ツール「PyRIT」をオープンソース化した。

研究者らは木曜日にこのフレームワークのコードを公開した。マイクロソフトは、PyRIT は何千もの敵対的 AI プロンプトを自動的に生成し、ニューラル ネットワークがハッカーの攻撃に効果的に抵抗できるかどうかをテストできると述べた。このツールは主にテキストを処理するように設計されていますが、開発者が画像などの AI を活用した入力タイプを追加できるように構築されています。

PyRIT はもともと、Microsoft の AI Red Team テスト チームが社内で使用していたスクリプトのコレクションでした。チームは、ハッカーよりも先に弱点を見つけられるように、新しい AI モデルに対するサイバー攻撃をシミュレートする責任を負っています。研究者たちは、コードベースが今週リリースされた PyRIT フレームワークに進化するまで、追加機能でスクリプトを拡張し続けました。

新しく作成された AI モデルを本番環境に展開する前に、開発者はいくつかのカテゴリのリスクについてテストする必要があります。モデルがマルウェアを作成する原因となるヒントなど、サイバーセキュリティのリスクを探す必要があります。ソフトウェア チームは、AI が幻覚を起こしている可能性のある状況を探し、AI が騙されてトレーニング データ セットから機密情報を漏らしてしまう可能性があるかどうかを判断する必要もあります。

一部のモデルはテキストだけでなく画像などの他の種類の出力も生成するため、このタスクはさらに複雑になります。脆弱性テストは、出力の種類ごと、およびユーザーが AI と対話するソフトウェア インターフェイスごとに繰り返す必要があります。つまり、ニューラル ネットワークを徹底的にテストするには、開発者が何千もの敵対的なプロンプトを作成する必要がありますが、これは多くの場合非現実的です。

Microsoft はこの制限を取り除くために PyRIT を作成しました。同社によれば、このフレームワークにより、開発者は特定の種類の敵対的AI入力を指定し、基準を満たす何千ものプロンプトを自動的に生成できるようになるという。これらのプロンプトは、Web サービスとして実装された AI や、アプリケーション プログラミング インターフェイスを通じて提供されるモデルをテストするために使用できます。

「PyRIT は、生成 AI システムの人間によるレッドチーム作業に代わるものではありません」と、マイクロソフトの研究者はフレームワークの詳細を説明したブログ投稿で強調しています。「むしろ、AI レッドチーム メンバーの既存のドメイン専門知識を補強し、面倒な作業を自動化します。」

PyRIT は敵対的なプロンプトを生成するだけでなく、ターゲット モデルの応答も評価します。 Microsoft によれば、組み込みのスコアリング エンジンは、開発者がテストしている P2P アプリケーションが信頼性が高く効果的であるかどうかを自動的に判断し、その後、アプリケーションが信頼性が高く効果的であるかどうかを自動的に判断します。

PyRIT は AI の応答を分析できるため、いわゆるマルチラウンドのリスク評価を実行するのに適しています。このフレームワークは、敵対的なプロンプトを AI に提供し、その応答を分析し、それに応じて次のプロンプトを調整して、より効果的なものにすることができます。 「単一ラウンドの攻撃戦略は計算時間が短いが、複数ラウンドのレッドチームテストでは、より現実的な敵対行動とより高度な攻撃戦略が可能になる」とマイクロソフトの研究者は説明した。

<<:  2024年の製造業の現状:完全デジタル化

>>: 

ブログ    
ブログ    

推薦する

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」...

人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...

人間の介入によってモデルのパフォーマンスをどのように向上できるでしょうか?この記事を読んでみてください

金融業界など、一部の業界は誤検知に非常に敏感です。クレジットカード詐欺を検出する際に、検出システムが...

中国で自動運転元年となるのは何年でしょうか? 2021年かも

インテリジェント化は将来の自動車発展の基本的な方向であり、自動運転技術は将来の自動車発展の重要な最先...

ディープラーニングに基づく教師あり音声分離

概要: 音声分離は、対象の音声を背景の干渉から分離するタスクです。従来、音声分離は信号処理の問題とし...

...

研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

全国的な送電網の障害を特定することは、巨大な干し草の山から針を見つけるようなものです。米国全土に設置...

JD.com、ビリビリ、ピンドゥオドゥオなど中国企業88社が米国の上場廃止前リストに含まれ、中国コンセプト株がクリアされる可能性

半月も経たないうちに、第6波がまたやってきました!現地時間5月4日、米証券取引委員会は再び「上場廃止...

ブロックチェーン技術における機械学習

近代化は世界を変える可能性のある新しい画期的なものをもたらしました。現実世界の問題は、単純な従来のア...

悲劇!ウーバー、自動運転車が人をはねて死亡させたため全テストを中止

ウーバー、自動運転車が人をはねて死亡させたため全テストを中止 アメリカ現地時間19日朝、アリゾナ州...

Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Google がゲームを撤回しました! Gemini が API を公開してから1 週間も経たないう...

iSoftStoneはインテリジェントな顧客サービス市場に参入し、専門性と専門知識で地位を確立しました。

今日、カスタマー サービス ロボットは私たちにとって馴染み深い存在です。電話料金、住所、登録、ビジネ...

認知知能の実装が加速し、新世代のインテリジェント検索が誕生

[51CTO.com からのオリジナル記事] インターネットは、間違いなく私たちの生活、学習、仕事に...

OpenAIはGPT-3.5 Turbo、DALL-E、Whisper APIを完全に公開しました

OpenAIは7月10日、開発者のモデル処理効率向上を支援するため、GPT-3.5 Turbo、DA...

...