この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 今年初め、OpenAI は最新の AI ビジョン モデル CLIP をリリースしました。 まだ印象に残っている方も多いと思いますが、CLIP は膨大なデータセットで学習した結果、画像とテキストの認識や融合において驚くべき表現力を発揮しました。 たとえば、「ショックを受けた」というテキストを入力すると、AI は「見つめている」という主要な特徴を通じてそれを正確に提示し、テキスト、顔、ロゴなどの他のテキスト情報に基づいて新しい画像にマージします。 人間にとっては、キーワード理解を通じて新しいイメージを説明することは難しくないかもしれませんが、AIにとっては、テキスト認識や画像認識など、非常に高い視覚認識・理解能力が必要です。したがって、CLIP モデルは、既存のコンピューター ビジョン研究の最高レベルを表していると言えます。 しかし、画像とテキストの両方の認識機能を備えたこの AI は、「紙」の前では失敗しました。 どうしたの? AI に騙され、「Apple」が「iPod」に最近、OpenAIの研究チームがテストを実施し、CLIPは「不快な画像」によって簡単に誤解される可能性があることを発見しました。 テストは次のようなものでした。研究者は CLIP に次の画像 (左) を入力しました。 AIはそれがリンゴであると認識しただけでなく、その品種である「グラニースミス」も表示しました。 しかし、研究者がリンゴの上に「iPod」と書かれた紙を置くと、AIは本当に誤認しました。右の写真に示すように、そのiPod認識率は99.7%に達しました。 研究チームはこのタイプの攻撃を「プリント攻撃」と呼んでいる。彼らは公式ブログにこう書いている。「モデルの強力なテキスト読み取り能力を活用することで、手書きのテキストの写真でもモデルを騙すことができる。『敵対的パッチ』と同様に、この攻撃はワイルドなシナリオでも効果的だ」 ご覧のとおり、この印刷攻撃は実装が簡単で、ペンと紙のみが必要であり、大きな影響を与えます。別のケースを見てみましょう。 左の写真では、AIがプードルの識別に成功しました(認識率39.3%)。 しかし、右の写真のプードルに「$$$」の文字を複数追加したところ、AIはそれを貯金箱として認識しました(認識率52.5%)。 この攻撃が暗黙的である理由について、研究者らは、その鍵は CLIP のマルチモーダルニューロンにあると説明している。このニューロンは、テキスト、シンボル、概念の形で提示された同じ概念に反応することができる。 しかし、このマルチモーダルニューロンは諸刃の剣です。一方では、画像やテキストを高度に制御できます。他方では、テキストや画像全体にニューロンが分散しているため、AI への攻撃も容易になります。 「マルチモーダルニューロン」が根本的な原因では、CLIP のマルチモーダルニューロンはどのようなものなのでしょうか? 以前、OpenAI の研究者は「人工ニューラル ネットワークにおけるマルチモーダル ニューロン」という新しい論文を発表し、CLIP を有効にしてそのパフォーマンスを観察する方法を説明しました。 OpenAI は、モデルの活性化を理解するために、特徴の視覚化 (入力に対して勾配ベースの最適化を実行してニューロンの活性化を最大化する) とデータセットの例 (データセット内でニューロンの活性化が最大になる画像の分布を観察する) という 2 つのツールを使用します。 OpenAI は、これらの単純な方法を使用して、CLIP RN50x4 (EfficientNet スケーリング ルールを使用して 4 倍にスケールアップされた ResNet-50) のほとんどのニューロンを説明できることを発見しました。これらのニューロンは「多面体ニューロン」の極端な例のように見えます。つまり、より高い抽象レベルでのみさまざまなユースケースに応答します。 さらに、物体の画像だけでなく、スケッチ、漫画、関連するテキストにも反応します。例えば: CLIP の場合、スパイダーマンの画像を認識するため、ネットワーク内にはスパイダーマンの実際の画像、漫画本の画像、さらに「スパイダー」という単語に反応できる特定の「スパイダーマン」ニューロンがあります。 OpenAI チームは、AI システムも人間と同じようにこの知識を内面化できる可能性があることを示しました。 CLIP モデルは、将来 AI がより複雑な視覚システムを形成し、より複雑なターゲットを識別することを意味します。しかし、これはまだ初期段階です。今では、誰かが「iPod」という言葉が書かれたメモを Apple に貼り付けても、CLIP のようなモデルではそれを正確に識別することはできません。 この場合、CLIP は貯金箱の画像だけでなく、一連のドル記号にも反応しました。上記の例のように、チェーンソーの上に「$$」という文字列を重ねると、CLIP にそれを貯金箱として認識させることができます。 注目すべきは、CLIP のマルチモーダルニューロンの相関バイアスは主にインターネットから取得したデータから学習されたことです。研究者らは、このモデルはインターネットデータの厳選されたサブセットで訓練されたが、それでも制御されていない関連性の多くを学習したと述べた。これらの関連性の多くは良性ですが、悪性のものもあります。 たとえば、テロリズムは「中東」ニューロンと関連付けられ、ラテンアメリカは「移民」ニューロンと関連付けられます。さらに悪いことに、肌の色が黒い人やゴリラに関連付けられているニューロンが 1 つあります (これも米国では人種差別の原因となります)。 これらの偏見や有害な関連付けは、微調整設定とゼロショット設定の両方でシステム内に残る可能性があり、展開中に目に見える形とほとんど目に見えない形の両方で現れます。多くの偏った行動は事前に予測することが難しいため、その測定と修正が困難になります。 商用製品には導入されていないマシンビジョンモデルは、コンピュータを使用して人間の視覚機能を実現し、コンピュータが客観的な世界の3次元シーンを認識、識別、理解する能力を持つことを目的としています。自動運転、工業製造、セキュリティ、顔認識など、現実世界での幅広い応用シナリオがあることは想像に難くありません。 いくつかのシナリオでは、特に自動運転の分野では、マシンビジョンモデルの精度に対する要件が非常に高くなります。 例えば、イスラエルのベングリオン・ネゲブ大学と米国のジョージア工科大学の研究者らは以前、テスラの自動運転システムのテストを実施した。彼らは道路脇の看板のビデオに「ハンバーガー攻撃画像」を追加し、滞留時間を0.42秒に設定した。 テスラ車がこの地点まで走行したとき、映像は一瞬しか流れなかったものの、テスラは「信号」を捉え、緊急ブレーキをかけた。このテストは、自動運転の視覚認識システムにはまだ明らかな抜け穴があることを意味している。 さらに、研究者らは、道路上に特定のステッカーを貼るだけで、テスラのオートパイロットソフトウェアを騙して警告なしに車線変更させることができることを明らかにした。 こうした攻撃は、医療から軍事まで、幅広い AI アプリケーションにとって深刻な脅威となります。 しかし、現時点では、この特定の攻撃はまだ制御可能な範囲内であり、OpenAI の研究者は、CLIP ビジョン モデルがまだ商用製品に導入されていないことを強調しています。 |
<<: Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」
>>: 「コーチ」はとても優しくて合格率も高いです!上海に「無人運転訓練」が登場。試してみませんか?
シンガポールは、都市国家内での違法行為を阻止するためにロボットを活用している。しかし、ロボット警官が...
テクノロジーの波が押し寄せています。近年、人工知能技術の発展に伴い、ロボット宅配便や純電気無人車両の...
人工知能の長年の目標は、これまで人間のみが実行していたタスクを機械が実行できるようにすることです。し...
2021年3月3日、GGVファミリーKuobo Intelligenceは、Pre-B-4ラウンドの...
さまざまな業界の労働者は、当初は AI に取って代わられるのではないかと心配していましたが、今では ...
産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...
2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...
最近、工業情報化省の公式ウェブサイトは、2020年1月から12月までのロボット産業の稼働状況を発表し...
急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...
サイバーセキュリティ分野の仕事は需要が高く、有能な従業員が求められています。アメリカ国立標準技術研究...
分析機関CCSインサイトは10日、来年には生成AI分野が現実の試練に直面する可能性があるとの予測を発...
企業に対するセキュリティ上の脅威は常に存在していましたが、インターネットの発展により、脅威は物理空間...