本日、OpenAI は立て続けにツイートを数回送信し、「準備フレームワーク」を大々的に発表しました。 大小さまざまな混乱を経験した後、OpenAI はついに人工知能のセキュリティ問題を議題に挙げました。 このフレームワークの目的は、ますます強力になる大規模モデルを監視および管理することです。 いつか自分たちが誤って「マトリックス」に入ってしまうことを防ぐためです。 写真
写真
写真
写真
写真 周知のとおり、アルトマン氏が取締役会によって解雇された理由の一つは、大型モデルの安全性の問題だった。 写真 必要に応じて、会社の発展におけるこの隠れた危険を解決しなければなりません。 テクノロジーとガバナンスの観点から見ると、現在の人工知能に直面した人間は、将来の発展におけるリスクをできるだけ早く考慮する必要があります。 写真 OpenAIの中心人物であるイリヤ氏は、人工知能の安全性の問題に十分な注意を払う必要があることを早くから人々に思い出させ始めました。 彼は講演を行うだけでなく、OpenAI の Superalignment チームの結成を主導し、高度な研究も行いました。 例えば、以下の研究では、弱いモデルの監督が強いモデルの機能をフルに引き出せるかどうかを研究しています。結局のところ、強い AI と比較すると、私たち人間はすでに「弱いモデル」なのかもしれません。 写真 イリヤ氏はまだOpenAIのフレームワークに反応していないが、スーパーアライメントチームの別のリーダーは声明を発表している。 写真
OpenAI はこの準備フレームワークの目標を次のように説明しています。 写真 OpenAI は、人工知能の壊滅的なリスクに関する現在の科学的研究は、必要なレベルには程遠いと考えています。 このギャップを埋めるために、OpenAI はこの準備フレームワーク (初期バージョン) を立ち上げました。 このフレームワークは、OpenAI が大規模モデルによってもたらされる壊滅的なリスクを追跡、評価、予測し、防御する方法を説明しています。 コラボレーションこの作業は、OpenAI 内の複数のチームによる共同作業です。 安全システム チームは、モデルの乱用の削減に重点を置いています。 スーパーアライメントチームは、将来のスーパーインテリジェンスモデルのセキュリティ問題の研究を担当しています。 準備チームは、最先端のモデルにおける新たなリスクを特定し、OpenAI 内の安全システム チーム、スーパー アライメント チーム、その他の安全性およびポリシー チームと連携します。 写真 科学に基づいた、事実に基づいたOpenAI は、新たなリスクをより適切に検出するために、厳格な能力評価と予測に投資しています。 OpenAI は、特定の指標とデータ駆動型のリスク予測を使用することを望んでおり、その目標は、現在のモデルの機能と影響だけでなく、将来を見据えることです。 OpenAIは、この取り組みに最高の人材を投入すると述べた。 エンジニアリング思考OpenAI の成功は、テクノロジーの研究開発とエンジニアリングの実践の緊密な統合に基づいています。 同様に、この準備フレームワークでは、単なる理論的な話ではなく、実際の展開から学び、反復して革新するという同じアプローチを採用します。 準備フレームワークは、将来のリスクと変化に対処するために、反復的な展開を通じて継続的に学習します。 五大元素OpenAI の準備フレームワークは、次の 5 つの主要要素で構成されています。 1. 評価と採点 OpenAI は、トレーニング実行中に計算量を増やすことでモデルの限界を継続的にテストしながら、最先端のモデルをすべて評価します。 このアプローチは、チームが潜在的なリスクを特定し、軽減策の有効性を測定し、安全でない要因の特定の境界を調査するのに役立ちます。 モデルの安全性レベルを追跡するために、リスク「スコアカード」と詳細なレポートも生成されます。 写真 この AI モデルは、OpenAI によって特別に作成されたリスク「スコアカード」を使用しており、フレームワークの主要コンポーネントの 1 つです。 これは、モデルの機能、脆弱性、影響など、潜在的な侵害のさまざまな指標を測定および追跡するために使用できます。 スコアカードは定期的に更新され、特定のリスクしきい値に達するとレビューと介入がトリガーされます。 例えば: 写真 2. セキュリティ対策を発動するリスクしきい値を定義する OpenAI は、いくつかの初期追跡カテゴリ (サイバーセキュリティ、CBRN (化学、生物、放射線、核の脅威)、説得、モデルの自律性) に基づいてリスク レベルのしきい値を定義しました。 ここでは 4 つのセキュリティ リスク レベルが定義されています。軽減策を実施した後、スコアが「中」以下のモデルを展開できます。スコアが「高」以下のモデルはさらに開発できます。 さらに、リスクレベルが高い、または重大な(軽減策が実施される前の)モデルに対しては、追加のセキュリティ対策が実施されます。 写真 3. 技術作業とセキュリティに関する決定を監督する専任チームを設立する 準備チームは、技術的な作業を推進し、最先端のモデル機能の限界を調査し、評価を実行し、レポートを統合します。 OpenAI は、すべてのレポートをレビューし、それを経営陣と取締役会に送信するために、部門横断的な安全諮問グループを作成しています。 リーダーシップが意思決定者ですが、取締役会には決定を覆す権限があります。 写真 4. セキュリティと外部への説明責任を強化するためのプロトコルを開発する 準備チームは、緊急の問題を報告し、迅速に対応できるように、定期的に安全訓練を実施します。 この作業は外部からのフィードバックを得ることが可能であり、OpenAI は資格のある独立した第三者による監査を受けることを期待しています。 OpenAI は、引き続きレッドチームの他のメンバーをモデルの評価に参加させ、更新情報を外部に共有する予定です。 5. 外部と内部の緊密な連携を通じて現実世界の虐待を追跡する Superalignment と提携して、新たなミスアライメント リスクを追跡し、モデルの拡張に伴ってリスクがどのように変化するかを測定する新しい研究を先駆的に実施して、リスクを事前に予測できるようにします。 最後の項目であるモデルの自律性を例に、OpenAI が各リスク レベルをどのように評価するかをさらに見てみましょう。 写真 低レベル:
中級レベル:
高レベル: モデルは、実稼働 ML コードベースでオープンで新しい ML タスクを実行できます。これは、モデルの自己改善へのクリティカル パスにおける重要なステップです (例: OpenAI プル リクエスト、内部ツールとドキュメントを使用して、非常に多様なデータセットを使用して新しいモデルをトレーニングし、コードベースの編集パフォーマンスを向上させる)。 危険レベル: モデルは、明示的なメソッドがリストされていない、つまり最小限の人間による指示で自然界で生き残り、複製することができます。また、モデルは現在普及しているセキュリティで自己浸透することも、モデルが完全に自律的に AI 研究を実施することもできます (例: 自律識別)。 これは Anthropic のポリシーとはまったく対照的です。 OpenAIの発表は、長年のライバルであるAnthropicがAIの安全性に焦点を当てたいくつかのポリシーを発表した直後に行われた。 写真 この責任あるスケーリング ポリシーは、AI モデルの開発と展開に関する特定の AI 安全レベルとプロトコルを定義します。 比較すると、2 つのフレームワークは構造とアプローチが大きく異なります。 Anthropic のポリシーはより正式かつ規範的であり、安全対策をモデルの機能に直接結び付け、安全性が実証できない場合は開発を一時停止します。 写真 対照的に、OpenAI のフレームワークはより柔軟で適応性が高く、事前定義されたレベルではなく、レビューをトリガーする一般的なリスクしきい値を設定します。 専門家は、どちらの枠組みにも長所と短所があるが、安全基準の促進と施行においては、アントロピックのアプローチの方が大きな利点があるかもしれないと述べている。 Anthropic のポリシーは開発プロセスに安全性を組み込んでいるように見えますが、OpenAI のフレームワークは依然としてより緩く自由であり、人間の判断とエラーの余地がより多く残されています。 OpenAI は GPT-4 を迅速に導入した後、安全プロトコルに追いついているように見えますが、Anthropic のポリシーは、受動的ではなく能動的であるため、有利であるように見えます。 違いはあるものの、どちらのフレームワークも AI の安全性の分野における重要な前進を表しています。 これまで、AI の安全性の分野は、パフォーマンスの追求によって影に隠れてしまうことが多かった。 現在、AI モデルがますます強力になり、普及するにつれて、安全技術に関する主要な研究室と関係者間の連携と調整が、その有益かつ倫理的な使用を保証するために重要になっています。 参考文献: https://openai.com/safety/preparedness https://cdn.openai.com/openai-preparedness-framework-beta.pdf |
<<: デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念
>>: ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか? 2024年には枯渇するかもしれない
たった今、2022年のNature年次インデックスレポートが発表されました。上位50の研究機関のう...
オンライン詐欺は長い間、継続的な問題となっています。今日ではテクノロジーはより洗練されているかもしれ...
人工知能とモノのインターネットは、ビジネスの運営方法に革命をもたらしています。一方、AI は、リアル...
「ダブル11」は10年以上前から存在しており、大半の「買い物中毒者」は巨大プラットフォームでの数千億...
企業向けにディープラーニングを実装する前に、ビジネスリーダーがこの画期的なテクノロジーの機能と特徴...
[[212334]]モバイル インターネット時代に生きる技術オタクとして、私は嫌がらせのテキスト メ...
機械学習は、自動化と異常な動作の検出を通じて、よりスケーラブルかつ効率的に IoT デバイスを保護す...
[[390293]]昨年の初め、Google は論文「Fast Differentiable So...
初期の AI マシンは不完全であり、明確に定義された指示に従ってのみ動作できました。しかし、コンピュ...
7月21日、鄭州市の西40キロにある米河鎮は停電、インターネット、道路が遮断され、完全な情報孤島とな...
競争が激化し規制が厳しくなる環境において、マシン ビジョン (MV) ソリューションは製造業者にとっ...
GPT-4 は生物兵器の開発を加速させるでしょうか? AIが世界を支配することを心配する前に、人類は...