北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

北京航空航天大学はモードの壁を打ち破り、可視光と赤外線モードにわたる普遍的な物理的対抗手段を開発しました。

近年、視覚システムのセキュリティ評価の研究が徐々に深まっています。研究者は、メガネ、ステッカー、衣服などのさまざまな媒体に基づく可視光モードのセキュリティ評価技術の実装に成功しています。赤外線モードに関する新しい試みもいくつかあります。ただし、単一のモードでしか動作できません。

人工知能技術の発展に伴い、可視光熱赤外線画像技術は、公共の安全監視や自動運転など、多くの安全が重要なタスクに応用されています。可視光画像は、日中に豊富なテクスチャ情報を提供でき、赤外線画像は夜間に対象の熱放射分布を鮮明に表示できます。この2つを組み合わせることで、視覚システムに24時間フルカバレッジや環境制限からの解放など、多くの利点がもたらされます。したがって、マルチモーダル視覚認識システムの統一的なセキュリティ評価方法も早急に研究する必要がある。

しかし、マルチモーダル評価を実装するのは非常に困難です。まず、異なるイメージングメカニズムの下で普遍的な攻撃方法を適用することは困難です。これまでの方法はすべて、特定の対象モダリティの画像特性に基づいて提案されており、他のモダリティでは機能することが困難です。さらに、ステルス性能、生産コスト、柔軟な適用のバランスを取ることが困難です。可視光とより難しい赤外線モードの両方で二重の効果を達成することは容易ではなく、低コストで便利な製造と使用を実現することはさらに困難です。

多くの課題に直面しながら、北京航空航天大学人工知能研究所の研究者たちは、可視光と赤外線のモダリティ間の共通の形状特性を調査し、可視光と赤外線のステルスを同時に実現する「クロスモダリティユニバーサル敵対パッチ」を革新的に提案しました。入手しやすく、低コストで優れた断熱材を​​選択し、解体後すぐに使用できる便利なパッチを作ります。現在の物理世界の可視光-赤外線マルチモーダル検出システムの堅牢性評価技術のギャップを埋めると同時に、物理的な実装のシンプルさと即時性も考慮します。実験により、さまざまな検出モデルとモダリティにおけるこの方法の有効性と、複数のシナリオでの一般化が実証されました。現在、この論文はICCV 2023に採択されています。

論文リンク: https://arxiv.org/abs/2307.07859

コードリンク: https://github.com/Aries-iai/Cross-modal_Patch_Attack

技術的なポイント

本研究では、進化的アルゴリズムを基本的な枠組みとして、形状モデリング、形状最適化、モードバランスの3つの観点からスキーム設計と効果改善を行います。具体的なプロセスは図の通りです。

1. スプライン補間に基づくマルチアンカー形状モデリング

基本的な形状モデリング部分については、研究者らはポイント最適化モデリングの新しいパラダイムを設計しました。これにより、ポイント座標を変更することでパッチ形状を直接調整できます。このプロセスでは、アンカーポイントの動きが方向や距離などによって制限されず、パッチ形状の探索空間が効果的に拡大されます。これを基に、形状の自然さを確保するために、スプライン補間法も使用して滑らかな接続を実現し、スプラインは制御点により厳密に従います。

2. 微分進化に基づく境界制約形状最適化アルゴリズム

ストライクを達成するには効果的な最適化手法が必要です。この目的のために、研究者は時間コストと実際の効果を考慮し、進化アルゴリズムを基本的なフレームワークとして使用し、境界設定と適応度関数の2つの観点から改善を行いました。

(1)境界設定:アンカーポイントの境界設定により変形の効率が向上し、時間コストを削減できます。設定には次のものがあります: 曲線セグメント内でループや自己交差を形成しません。曲線セグメント内で尖端が発生しにくく、無効な領域には表示されません。

アンカーポイントを例にとると、次の図の青い部分は境界設定の凡例、オレンジ色の部分はエラーの例です。

アンカーポイントの境界決定の数学的表現は次のとおりです。

(2)適応度関数:単一モードでのみ打撃を評価するこれまでの研究とは異なり、本論文では、モード効果の違いをバランスさせる問題が当然伴う可視光モードと赤外線モードに焦点を当てています。そのため、単一のモダリティを簡単に最適化するという極端に陥ることを避けるために、研究者らは、検出器の信頼スコアの認識に基づくクロスモダリティの適応度関数を革新的に提案しました。この関数は、2 つのモダリティの効果の違いのバランスを取りながら、成功する方向の探索を促し、最終的にスコアに基づいて適者生存を実現します。ストライキの初期段階と後期段階におけるストライキの難しさの違いを考慮して、線形関数ではなく指数関数を使用して、さまざまな段階でのストライキの進行の違いを強調します。

アルゴリズムは、両方のモードが正常にヒットし、最適な形状戦略を出力するまで探索プロセスを繰り返します。完全な最適化プロセスは次のとおりです。

実験結果

実験1: 異なる検出器シリーズに対するクロスモーダル攻撃性能の検証

実験2: 形状に基づくアブレーション実験

実験3: クロスモーダル適応関数のアブレーション実験

実験4: 物理的実装偏差に対する手法の堅牢性の検証

実験5: 異なる物理的条件下での手法の有効性の検証

さまざまな角度、距離、姿勢、シーンでのパフォーマンス検証結果を視覚化

要約する

この研究では、自然形状の最適化を中核とし、変形パッチとクロスモーダル攻撃を組み合わせ、物理環境における可視光-赤外線マルチモーダル堅牢性評価法を設計します。この方法は、マルチモーダル(可視光-赤外線)ターゲット検出システムの堅牢性を評価し、評価結果に基づいて検出器モデルを効果的に修正し、同時に可視光と赤外線の両方のモダリティでのターゲット画像検出の精度を向上させることができます。これは、実際に実装可能で、物理環境で適用可能であり、マルチモーダル検出システムの堅牢性評価と改善に貢献します。

<<:  大規模モデルはなぜこんなに遅いのか?考えすぎだったことが判明:新しい方向性は、人間と同じ思考アルゴリズムを使用することです

>>: 

ブログ    
ブログ    
ブログ    

推薦する

ロボット危機:私たちの仕事はより困難に…

[[412010]]ロボット、つまり自動化と AI の総称は、私たちの周りにはどこにでもあります。...

...

デューク大学は、低品質のモザイクを数秒で高解像度の画像に変換するAIアルゴリズムを提案

高画質を追求する時代において、低画質に対する許容度はますます低くなっています。 Zhihuで「低解像...

ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

注目すべき傾向は、印象的な言語出力を生成できる、数百億/数千億のパラメータを備えた、より大規模で複雑...

MLOps 実装を成功させるためのベストプラクティス

翻訳者 | ブガッティ企画 | 梁策、孫淑娟機械学習と今日の世界におけるその応用については、すでにご...

ChatGPT の背後にあるビッグモデル技術を 3 分で簡単に理解する

過去 10 年間で、人工知能の分野で大きな進歩が遂げられてきましたが、その中で自然言語処理 (NLP...

メモリ帯域幅とコンピューティング能力、どちらがディープラーニング実行パフォーマンスの鍵となるのでしょうか?

モデルのハードウェア要件に関して、まず頭に浮かぶのは計算量、つまりディープラーニング モデルがフィー...

DJL [ディープラーニング]を正しく開く方法

[[350239]]この記事はWeChatの公開アカウント「小明野菜市場」から転載したもので、著者は...

Google ナレッジグラフ: 10 年にわたる開発

2018 年、ガートナーはナレッジ グラフを新興テクノロジーとして初めて発表しました。ナレッジ グ...

...

スタンフォード大学とOpenAIがメタプロンプティングを提案し、最も強力なゼロショットプロンプティング技術が誕生した。

最新世代の言語モデル (特に GPT-4、PaLM、LLaMa) は、自然言語処理と生成の限界を押し...

未来志向のAI自動テストツール

翻訳者 | 陳俊校正:孫淑娟近年、自動テストは大きな進化を遂げています。これは、人為的エラーの可能性...

人工知能も汚染される可能性があるので、顔認証による支払いは依然として安全でしょうか?

下の図は、人間にとって非常に区別しやすい 3 種類の動物、鳥、犬、馬を示しています。しかし、人工知能...

...

JWT: どの署名アルゴリズムを使用すればよいですか?

[[421048]]この記事は、Scott Brady が執筆した WeChat パブリック アカ...