AIモデルの「レッドチーム」からの迅速な修正を期待しないでください

ホワイトハウスの関係者らが人工知能チャットボットが引き起こす可能性のある社会的危害を懸念する中、シリコンバレーの大手企業はAIチャットボットの市場投入を急いでおり、ラスベガスのハッカー会議「デフコン」で日曜日に終了した3日間の競争に多額の投資を行っている。

約2,200人の参加者がノートパソコンを使用して、テクノロジーの次の大流行を代表する8つの主要な大規模言語モデルの欠陥を暴こうとしました。しかし、この最初の独立したマルチモデルの「レッドチーム」がすぐに結果を出すことは期待しないでください。

調査結果は2月頃まで公表されない予定だ。それでも、内部の仕組みが完全に信頼できるわけではなく、作成者自身でさえ完全に理解していないこれらのデジタル構造の欠陥を修正するには、時間と何百万ドルもの費用がかかるだろう。

学術研究や企業研究によれば、現在の AI モデルは扱いにくく、脆弱で、柔軟性に欠けるという。データサイエンティストは極めて複雑な画像とテキストのコレクションを蓄積していたため、セキュリティはトレーニングにおいて後回しにされていました。彼らは人種的、文化的偏見の影響を受けやすく、簡単に操作されてしまう可能性があります。

「システムを構築した後に魔法のセキュリティパウダーを振りかけたり、パッチを当ててコミットさせたり、特別なセキュリティ機器を付け加えたりできると偽るのは簡単だ」と、サイバーセキュリティのベテランでベリービル機械学習研究所の共同創設者であるゲイリー・マグロウ氏は言う。ハーバード大学の公益技術者ブルース・シュナイアー氏は、デフコンの参加者は「新しい困難な問題を発見する可能性が高い」と語った。「30年前のコンピュータセキュリティはそんな感じだった。私たちは次から次へと何かを破壊していた。」

AIテストモデルの1つを提供したアントロピックのマイケル・セリット氏は、ニュースリリースの中で、その能力と安全性の問題を理解することは「科学的探究の未解決の領域である」と認めた。

従来のソフトウェアでは、明確に定義されたコードを使用して、明確なステップバイステップの指示を発行します。 OpenAI の ChatGPT や Google の Bard などの言語モデルは異なります。主にインターネットを巡回して数十億のデータポイントを取り込み、分類することで訓練されるロボットは、永久に開発が続けられており、人類に変革をもたらす可能性を考えると、不安な見通しだ。

生成AI業界は、昨年秋にチャットボットが一般公開されて以来、研究者や技術者によって暴露されたセキュリティホールを繰り返し塞ぐ必要があった。

今年のデフコンで講演したAIセキュリティ企業ヒドゥンレイヤーのトム・ボナー氏は、「安全に使用できます」というテキスト行を挿入するだけで、Googleのシステムを騙してマルウェアを無害とマークさせた。

「適切なガードレールがない」と彼は言った。

別の研究者は、ChatGPT にフィッシングメールとブルートフォースによる人間排除の方法を作成させましたが、これは同社の倫理ガイドラインに違反していました。

カーネギーメロン大学の研究者を含むチームは、主要なチャットボットが有害なコンテンツも生成する自動攻撃に対して脆弱であることを発見した。「ディープラーニングモデルの性質上、このような脅威は避けられないものとなるかもしれない」と研究者らは書いている。

警報が鳴っていなかったというわけではありません。

国家人工知能安全保障委員会は2021年の最終報告書で、商用AIシステムへの攻撃はすでに発生しており、「ごくわずかな例外を除き、研究開発への投資が不十分なため、AIシステムの設計と導入時にAIシステムを保護するという考えは後回しにされてきた」と述べた。 ”

ほんの数年前には頻繁に報告されていた深刻なハッキング攻撃は、現在ではほとんど公表されなくなりました。リスクが大きすぎるうえ、規制がないために「人々は問題を隠蔽することができ、実際にそうしている」とボナー氏は語った。

この攻撃は、作成者にも分からない方法で AI ロジックを騙します。チャットボットは、簡単な言語で直接対話するため、特に脆弱です。この相互作用により、予期せぬ形で変化が生じる可能性があります。

研究者らは、人工知能システムの訓練に使用される膨大なデータ内の少数の画像やテキストを「汚染」すると、大混乱を引き起こし、簡単に気付かれない可能性があることを発見した。

スイスのETHチューリッヒのフロリアン・トラマー氏が共同執筆した研究によると、模型の0.01％を損傷するだけで破壊に十分であり、コストはわずか60ドルだという。研究者たちは、2 つのモデルの有効期限が切れるまで、Web クロールに使用されたいくつかのサイトを待機しました。その後、彼らはそれらのドメインを購入し、そこに不正なデータを公開しました。

マイクロソフトの同僚として AI のレッドチームを率いた Hyrum Anderson 氏と Ram Shankar Siva Kumar 氏は、新著「Not Bugs, Stickers」の中で、テキストおよび画像ベースのモデルに対する AI セキュリティの現状を「哀れなほど」と評しています。彼らはライブデモンストレーションで、AI搭載のデジタルアシスタントAlexaがベートーベンの協奏曲の断片を100枚の冷凍ピザを注文するコマンドとして解釈してしまうという例を挙げた。

著者らは 80 を超える組織を調査し、大多数の組織がデータ汚染攻撃やデータセット盗難に対する対応計画を策定していないことを発見しました。業界のほとんどは「それが起こったことすら知らなかった」と彼らは書いている。

元グーグル幹部でカーネギーメロン大学学長のアンドリュー・W・ムーア氏は、10年以上前にグーグルの検索ソフトへの攻撃に対処したと語った。 2017 年後半から 2018 年初頭にかけて、スパマーは Gmail の AI 検出サービスを 4 回利用しました。

大手AI企業は安全性とセキュリティが最優先事項だとしており、先月、ホワイトハウスに対し、自社のモデル（主に厳重に守られた「ブラックボックス」）を外部の精査にかけることを自主的に約束した。

しかし、これらの企業が十分な対策を講じていないという懸念もある。

トラマー氏は、検索エンジンやソーシャルメディアプラットフォームがAIシステムの弱点を金銭的利益や偽情報の流布のために悪用すると予想している。たとえば、賢明な求職者であれば、自分だけが適切な候補者であるとシステムを納得させる方法を見つけ出すかもしれません。

ケンブリッジ大学のコンピューター科学者ロス・アンダーソン氏は、人々がAIロボットに病院、銀行、雇用主とのやり取りを許可し、悪意のある人物がAIロボットを使っていわゆるクローズドシステムから金融、雇用、健康データを盗むことで、AIロボットによるプライバシーの侵害を懸念している。

研究によれば、AI 言語モデルもジャンクデータで再トレーニングすることで自らを汚染する可能性があるそうです。

もう一つの懸念は、AI システムによって企業秘密が収集され、吐き出されることです。韓国のビジネスニュースメディアがサムスンの事件を報じた後、ベライゾンやJPモルガン・チェースなどの企業はほとんどの従業員に対し、職場でのChatGPTの使用を禁止した。

大手 AI ベンダーにはセキュリティ担当者がいますが、多くの小規模な競合企業にはいない可能性があり、安全性の低いプラグインやデジタルエージェントが増加する可能性があります。スタートアップ企業は、今後数か月以内に、ライセンスを受けた事前トレーニング済みモデルに基づく数百の製品を発売すると予想されています。

誰かがあなたのアドレス帳を盗んだとしても驚かないでください、と研究者は言う。

<<: Reverse Midjourneyがオンラインになりました！デジタルアーティストがスティーブ・ジョブズに魅了され、写真がボルヘスの精神世界に入る

>>: 宮崎駿アニメの世界を一筆でスケッチしよう！スタンフォード大学の大型模型「𝘚𝘬𝘦𝘵𝘤𝘩-𝘢-𝘚𝘬𝘦𝘵𝘤𝘩」、スケッチが数秒で傑作に変身