データから生成AIまで、リスクを再考する時が来ている

OpenAIの「宮廷闘争」ドラマはもうすぐ終わりを迎える。

CEOのサム・アルトマンは取締役会によって突然解雇され、会長兼社長のグレッグ・ブロックマンは辞任した。その後、OpenAIの従業員は取締役会に対して辞任をちらつかせ、アルトマンの復帰を要求した。その後、OpenAIの取締役会はメンバーを入れ替え、アルトマンはOpenAIに復帰した。

表面的には、これは大手テクノロジースタートアップの支配権をめぐる戦いのように見えるが、あらゆる兆候から判断すると、この「宮廷闘争」の導火線は、AIの将来の発展概念に関する意見の相違によるものである可能性が高い。一方の派閥は「加速主義」の旗印を掲げ、技術エリートのリーダーシップの下でAIが進歩を加速し、世界を変えることを期待している。もう一方の派閥は利他主義の理論に基づく保守派閥で、人間の管理下でAIを開発することを目指している。

本物そっくりの芸術作品の創作から、本物そっくりの正確さで人間の言語を模倣することまで、生成型 AI はイノベーションと自動化のルールを書き換えています。

大規模な AI モデルのトレーニングにかかる大量のエネルギー消費、AI による言語感情や倫理道徳の把握、AI によるフェイクニュースや世論の操作、人間のイノベーションと創造における生成 AI の役割... 生成 AI が加速する今日、いくつかの問題は依然として慎重に検討する価値があります。

AIビッグモデルが次の

新たなセキュリティの戦場今年3月、サムスン電子が社内にChatGPTサービスを導入した直後、機密データの漏洩が3件発生した。一部の従業員が半導体生産に関連する機密コードや社内会議情報をChatGPTポートに入力したため、これらの機密情報が米国のサーバーにアップロードされ、漏洩した可能性がある。この事件の後、サムスンはChatGPTを使用する従業員のシナリオと行動を制限する措置を迅速に講じ、これにより業界ではこの種の大規模モデル技術によってもたらされるデータのプライバシーとセキュリティの問題について議論が巻き起こった。

客観的に言えば、インターネット時代において、クラウドにデータをアップロードする行為は、セキュリティ上の潜在的なリスクをもたらします。クラウドコンピューティングが初めて登場したとき、多くの企業はクラウドサービスプロバイダーによって機密データが漏洩することを懸念し、クラウドへのアップロードを拒否しました。

現在でも、多くの企業がセキュリティ強化のために個人データをローカルに保存しており、クラウドサービスプロバイダーは企業の信頼をまだ十分に獲得できていません。

生成AIへの熱狂が問題をさらに悪化させています。一方では、大規模モデルのトレーニングと運用にかかるコストが非常に高いため、大規模なモデルサービスを地元で構築するために巨額の投資を行える企業はごくわずかです。

一方、クラウドサービスプロバイダーが提供する大規模なモデルサービスでは、トレーニングやインタラクション中に大量のデータ、特に特定の分野のデータが必要になります。大規模モデルに含まれるドメインデータが多くなればなるほど、特に企業の研究開発や運用に関連するデータが多くなればなるほど、出力効果はより満足のいくものになることが多いです。

たとえば、企業の開発者が AI コード支援生成ツールを使用する場合、通常、ビッグモデルがより正確なコード予測結果を提供できるように、会社の既存のコードライブラリをアップロードする必要があります。企業のマーケティング担当者は、過去のマーケティング資料をビッグモデルに入力して、高品質のマーケティングコンテンツを自動的に生成し、作業効率を向上させることができます。

このため、企業や研究機関では、ユーザー生成コンテンツを含むテキストや画像などのデータを収集することがよくあります。これらのオリジナルのトレーニングデータには、ユーザーの機密性の高いプライバシー情報が含まれている場合があります。

データが不適切に収集されたり、偏りや誤ったラベル付けが含まれていたり、汚染されていたりすると、大規模なモデルから誤った出力が出たり、差別が生じたり、その他の悪影響が生じる可能性があります。同時に、データは適用中にデータ漏洩やプライバシーの露出などのリスクに直面する可能性があり、法的リスクをもたらし、AIに対する国民の信頼の危機を引き起こす可能性があります。

また、ビッグモデルサービスを提供するクラウドベンダーは、通常、同時に多くの顧客にサービスを提供します。ビッグモデルが各企業のデータを取得した後、このデータを各顧客のサービス範囲内でどのように完全に分離するかが、クラウドベンダーと企業を悩ませる大きな問題となっています。

データの分離に失敗すると、顧客 A から取得したデータが顧客 B への対話型応答に使用され、データ漏洩が発生する可能性があります。

企業がアップロードする大量の個人情報や機密データが適切に保護されていない場合、悪意のある攻撃者やクラウドベンダー内の悪意のある人物がソフトウェアの抜け穴や権限を悪用してこの情報を入手し、不当な利益を得ると同時に企業に計り知れない損害を与える可能性があります。

大規模モデルに必要な膨大な量のトレーニングおよびインタラクションデータは、企業が過去にクラウドにアップロードした量をはるかに超えているため、このリスクも過去に比べて桁違いに増加しています。

現在、生成AIは前例のないレベルの知能を発揮しており、企業のITにおいて重要な位置を占めています。この重要性によってもたらされる攻撃の頻度により、生成AIはクラウドコンピューティング、ビッグデータ、モノのインターネット、モバイルインターネットに続く新たなセキュリティ戦場となるでしょう。

同時に、ビッグモデル技術は、ネットワークセキュリティの運用と保守の効率をさまざまな面で向上させ、ネットワークセキュリティ環境の基盤をより深いレベルで変化させることにも役立ちます。

また、生成AIによって貧困の格差がさらに拡大し、デジタル格差が深刻化すると考える人もいます。生成型AIは新興のAI技術として、大量のデータと膨大な計算能力を必要とするため、技術が先進的な国や地域でのみ普及し、少数の経済圏によってのみ制御されることになります。

デジタル貧困格差はさらに拡大し、技術的に恵まれない地域の声は無視され、先進国の価値観が広く浸透し、デジタル格差が不可逆的に深まるという潜在的なリスクがある。

テクノロジーを使ってテクノロジーと戦い、魔法を使って魔法を倒す

ビッグモデル時代の到来とともに、その強力な機能は、セキュリティ保護技術の変革にも新たなアイデアを提供します。「AIの力を使ってAIと戦う」が話題になっています。

実際、攻撃に対抗し防御するという考え方は、モデルセキュリティに限定されるものではありません。人工知能分野では、過去10年ほど前から、さまざまなセキュリティ脅威に直面して、「攻撃を利用して防御を検出する-攻撃を利用して防御を促進する-攻撃と防御を統合する」というセキュリティ概念が徐々に形成されてきました。さまざまな攻撃シナリオをシミュレートすることで、モデルとシステムの弱点を継続的に探り、アルゴリズムとエンジニアリングの側面での防御能力の強化を促進しています。

しかし、これまでセキュリティ保護は主に機械学習アルゴリズムモデルに依存しており、大量の専門的なデータ知識の蓄積が必要であり、知識の盲点や小さなサンプルのタイミングの悪いコールドスタートなどの問題に直面していました。大規模モデル技術を使用することで、よりインテリジェントなセキュリティ制御を実現できます。

現在、生成 AI が直面しているセキュリティの問題は 3 つのレベルに分けられます。主な問題は技術的な攻撃、つまりネットワーク攻撃、脆弱性攻撃、データ攻撃です。特に、ビッグモデルに不良データを提供したり、トレーニングデータを汚染したりすると、誤った結果につながる可能性があります。この種の問題は比較的簡単に解決できます。

解決するのがより難しい問題は、主にコンテンツのセキュリティに関係する中程度の問題です。たとえば、大きなモデルは人々にとって大きな助けとなることもありますが、悪意のある人々にとっては道具となることもあります。スキルの低いハッカーが、より優れた攻撃コードや詐欺メールを書くのに役立ちます。

コンテンツをより制御可能にするにはどうすればよいでしょうか。大規模な AI モデルが悪事を働くのを防ぐにはどうすればよいでしょうか。これはテクノロジーの領域を超えています。現在、大規模なモデルにはいわゆる「安全ガードレール」が組み込まれていますが、これらはインジェクション攻撃やアルゴリズム攻撃に対して脆弱です。

高レベルの観点から見ると、大規模なモデルは人間の知識をすべて統合し、人間に伝達してプロンプトを提供することができます。しかし、AIの能力が人間を超えたとき、AIは依然として人間の道具で満足するのでしょうか。これらの技術がもたらす課題は、最終的には技術によって解決される必要があります。技術自体は進化し続け、将来まだ発生していない問題を理由に、関連する技術の開発を止めることはできません。

業界の現状から判断すると、AI の安全性を評価するための使いやすく標準化された評価ツールとルールのセットが現在不足しています。

これは、ビッグモデル防御で補完できるもう1つの側面です。ビッグモデル技術を通じてリスク知識と標準ルールを学習することで、AIのリスク理解と認識能力が向上し、ビッグモデルをビッグモデルに対して使用して非常に高速な防御と迅速なコールドスタートを実現するという目的を達成できます。

大規模モデルにおけるサイバーセキュリティの課題に立ち向かうには、企業、セキュリティチーム、規制当局の共同の取り組みが必要です。

まず、大規模モデルのトレーニングと管理を強化します。より効果的なデータ強化および処理技術を採用することで、大規模モデルにおける過剰適合や勾配爆発などの問題を軽減し、モデルの堅牢性と信頼性を向上させることができます。同時に、大規模モデルのトレーニングと管理では、データのプライバシーとセキュリティを確保するために、強化された監督と監査も必要です。

第二に、新たなセキュリティ防御技術を開発します。大規模モデルに対する攻撃方法は絶えず変化し、更新されており、それに対処するために新しいセキュリティ防御技術を開発する必要があります。たとえば、人工知能テクノロジーを使用して、悪意のあるコードやフィッシング攻撃を検出し、防御することができます。

テキストセキュリティを例にとると、セキュリティ標準ルール、リスクドメインの知識、過去のリスクサンプルに基づいて大規模なモデルをトレーニングすることで、モデルのリスク標準とコンテンツの理解が向上し、リスク検出機能が向上します。

また、セキュリティ知識グラフと組み合わせた大規模なモデル生成機能を使用して攻撃サンプルを構築し、検出モデルを継続的に反復して最適化します。

3番目に、データセキュリティ保護を強化します。インターネット上での大手モデルの攻防の対決に注目が集まる一方で、大手モデル自体のセキュリティやプライバシーの問題も懸念を引き起こしている。

大規模モデルのトレーニングおよび使用中に発生する可能性のあるデータセキュリティの問題に対処するには、一連のプライバシー保護テクノロジを採用する必要があります。たとえば、準同型暗号化、差分プライバシー、安全なマルチパーティ計算、モデル透かし、フィンガープリントなどのさまざまなテクノロジが、データのプライバシーとセキュリティを保護するために使用されます。

第四に、監督と法的保護を強化します。技術立法は技術開発のペースに遅れをとることが多く、法律や規制の指針や規制が不足しています。生成 AI を使用する企業の多くが、システム運用のセキュリティに大きな課題を抱えていることに気づいています。

大規模モデルにおけるサイバーセキュリティの課題に直面して、規制当局や法的機関も管理と監督を強化する必要があります。たとえば、政府の規制機関は、政策や法律を通じて、生成 AI の設計と進化を効果的に指導し、調整する必要があります。

策定される政策枠組みは、各国の立法および規制の背景と整合している必要があり、AI 技術の変化に応じて更新され、既存の規制の適用性が継続的に向上する必要があります。監督を維持しながら、AI に革新の自由を与え、協力してより高品質なコンテンツを作成します。

生成 AI は非常に複雑な問題です。倫理、データ、トレーニングなどの領域の複雑さは前例のないものです。これは新しい分野であり、誰もが直面する命題です。

テクノロジー企業の発展の歴史を見ると、新技術開発の初期段階では、異なるルートやコンセプトを持つ参加者が団結して協力し、科学技術の普及を促進することがよくあります。

しかし、テクノロジーが普及すると、商品化や実装の道筋に関する概念の違いによって、異なる道筋が生まれる可能性があります。 AIの普及と本格的な応用を目前に控え、今後の技術をいかに普及させ、規制していくべきかという概念や方向性を巡る議論は始まったばかりなのかもしれない。

今後のセキュリティ開発の動向と課題に直面して、企業は協力して測定可能なセキュリティシステムを確立し、インテリジェント時代の新たな攻撃と防御の動向に対応して本質的に適応性のある「セキュリティ免疫」を構築する必要があります。

<<: テンセントがまた何か新しいことをやっています！たった一言で絵をアニメの主人公に変身させよう！

>>: チャットボットはデータセンターをよりスリムで効率的にする

データから生成AIまで、リスクを再考する時が来ている

AIビッグモデルが次の

テクノロジーを使ってテクノロジーと戦い、魔法を使って魔法を倒す

トレーニング速度は 3D CNN よりもはるかに速く、3 倍高速です。トランス

スタンフォード大学がオープンソースのモーションキャプチャアプリケーションOpenCapを発表: 携帯電話を使用して従来のコストのわずか1%で迅速にデータを収集

AIが物流とサプライチェーン管理をどう変えるか

顔認識が「トレンド」になったら、少なくとも私たちには選択する権利があるはずです。

スマートホームからのプライバシー漏洩が心配ですか?エッジAIがあなたを助けてくれることを恐れないでください

プロセスマイニングを通じて運用の卓越性を達成するための8つのステップ

推奨アルゴリズムコレクション（パート2） - 相関ルール推奨とKBアルゴリズム

Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソースプロジェクトです。

Didi、AI技術を活用して交通問題を解決するTraffic Brainをリリース

推薦する

2019年にロボット分野で注目すべき5つのトレンド

「今日の簡単な歴史」：今後 15 年間でほとんどの人が失業することになるのでしょうか?

テンセントクラウドが高性能アプリケーションサービスHAIを開始、すべての開発者が独自のAIアプリケーションを開発可能に

機械学習: 具体的なカテゴリーは何ですか?プロジェクトのプロセスはどのようなものですか?

アプリケーション管理における AI/ML のユースケース

このGitHubの8000スターAIリアルタイム顔変換プロジェクトにはアプリがある

最も美しいデジタルガールフレンドをDIYしましょう！ MITが最強の仮想人間ジェネレーターのソースコードを公開、ネイチャー誌に掲載

機械に「忘却の呪文」をかける？ Google、初の機械忘却チャレンジを開始

SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築

Facebookは類似検索ライブラリFaissをオープンソース化、これは最速の既知のアルゴリズムより8.5倍高速

CES 2020 における AI による心を読む

倪光南学士がRAG技術、AIエージェント、AI倫理的課題について語る