異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

AI がどのように画像を生成し検出するかを研究する場合、明確な研究テーマが必要です。最近、コーネル大学の 3 人の研究者、ダニエル V. ルイス、ガブリエル サロモン、エドゥアルド トッドは、生成的敵対的ネットワーク (GAN) を使用して新しいデータを作成し、画像間の変換を研究することで、キリンの写真を鳥の写真に変換するように人工知能をトレーニングすることを決定しました。この論文は、Computer on the Beach (COTB'20) 2020 カンファレンスにも提出されました。

論文アドレス: https://arxiv.org/abs/2001.03637

画像から画像への変換は、衛星画像から地図を生成することから、衣服の輪郭だけから完全な衣服画像を生成することまで、幅広く使用されています。論文の研究では、キリンと鳥類は大きさ、質感、形態が異なるため、キリンを鳥類に変化させることは難しいことが判明した。彼らは、キリンと鳥の画像を大量に使用して、InstaGAN と呼ばれる教師なしのクロスドメイン翻訳モデルをトレーニングしました。

InstaGANは2019年に韓国科学技術院と浦項工科大学の研究者によって提案され、関連論文「InstaGAN: インスタンス認識型画像間翻訳」もICLR2019に採択されました。

最終的な鳥製品は、元の画像のレイアウトと背景を保持しますが、キリンを直接鳥に変換します。生成された鳥は存在しないことを強調することが重要です。これは単に InstaGAN の作成の結果です。

この論文の革新性は、著者自身の言葉によれば、「今回はリンゴをオレンジに変えたのではなく、象をバナナに変えた」ということである。これまでの教師なし画像間変換の例は、立っているライオンを横たわっているライオンに、猫を犬に、馬をシマウマに変換するといったものがほとんどでしたが、これらのトレーニングは比率や形状が非常に似ているため、難易度が異なります。

具体的にはどのようにやったのでしょうか?

GAN をトレーニングして関連画像を生成するために使用されるデータセットは、COCO (Common objects in Context) と Caltech-UCSD Birds 200 の 2 つです。 COCOデータセットには、91種類以上の画像328,000枚が含まれています。著者らは、トレーニング用と検証用にそれぞれ2,546枚と101枚のキリン画像を選択しました。また、200種以上を主にカバーする別の鳥類データセットであるCaltech-UCSD Birds 200-2011から、80%にあたる9,414枚の鳥類画像をトレーニング用に、20%にあたる374枚の画像を検証用に選択しました。

各画像にはキリンと鳥の輪郭が見られます。 AI には 2 つの主なタスクがあります。1 つはキリンを鳥に変えることです。もう 1 つは、見た画像が本物の鳥なのか、偽のキリン鳥なのかを判断することです。

次に、トレーニングを開始します。ほとんどのパラメータは、元の InstaGAN 論文と同じままです。キリンと鳥のデータセットの画像は、双線形補間を使用して 256x256 にサイズ変更され、GPU トレーニングには約 3 週間かかりました (2 つの NVIDIA RTX 2080 GPU を使用した場合、時間は 1 週間半に短縮できます)。

InstaGAN がトレーニングで使用する損失関数には、最小二乗 GAN 損失、サイクル損失、コンテキスト損失、アイデンティティ損失があり、最終結果における重要度に応じて重み付けされます。サイクル損失は最も重要視されます。同じことが LSGAN にも当てはまり、収束性が向上し、消失勾配問題の可能性が減少します。消失勾配問題では、良好な視覚的結果を達成して損失を最小限に抑えるには 100 エポック以上が必要です。

3週間のトレーニングの最後に、彼らには人工の鳥の画像セットである FakeSet が与えられました。次の図は、画像間の変換の例を示しています。

元の画像とマスクだけでなく、変換された画像とマスクも確認できます。ポーズ、空間配置、背景は変更されていないことに注意してください。つまり、InstaGAN は、キリンがほとんど遮られておらず横向きに立っている画像を変換することをかなりうまく学習し、今では同じ位置にある鳥も生成しています。興味深いことに、InstaGAN は興味深い「不正行為」方法を学習しました。明るい背景と対照的な暗い鳥を生成することで、人間や機械の識別子をうまく欺くことができます。

次に、InstaGAN によって生成された完成画像を見てみましょう。

いくつかの変換は印象的です。 InstaGAN は、マクロ撮影のように見せるために、上部の景色をぼかす方法を学習しました。遷移が完全にスムーズではないにもかかわらず、キリンの肩は残っていますが、AI がそれを気付かないように巧みに石に変えました。

背景のぼかし効果はかなり良好です。前景を処理する際に、InstaGAN は木片を鳥の止まり木として作成し、枝や岩の割れ目などのディテールを強調し、近くの鳥の足をぼかしました。全体的な効果は比較的自然です。しかし、いくつかの写真ではキリンの腹部と脚がぼんやりと見えているため、InstaGAN はおそらく葉か何かと間違えることを期待して、それらを緑色に変えた。

もちろん、変換効果は良くない場合も多々あります。異常な背景の影響が考えられるため、AI は画像の外観を変更することに成功しませんでした。また、ここでも、AI がキリンを除去するための一般的な戦略は、鳥の体をキリンの頭、首、肩にコピーして貼り付け、次にキリンの脚をできるだけ隠すことであることは明らかです。この点を念頭に置いて上の写真を見ると、キリンの長い脚がそのまま残っていることがすぐにわかるでしょう。モデルの数々の失敗は、すべてキリンの脚に関係しており、脚を隠すのは難しいのです。

生成された画像のリアリティと品質を評価するために、著者らは定性的および定量的な分析を実行しました。定性分析では、FakeSet から 335 枚の画像をランダムに選択して評価しました。基準は、変換品質、輪郭、テクスチャでした。選択肢は「良い」と「悪い」の 2 つだけでした。各属性の最終スコアは、335 枚の画像の平均スコアであり、0 から 1 までのスコアで表されます (0 は品質が悪いことを、1 は品質が良いことを示します)。属性の値が 0.75 に等しい場合、画像の 3/4 はこの属性で良好なパフォーマンスを示し、画像の 1/4 はパフォーマンスが低いことを意味します。詳細については以下の表をご覧ください。

定量分析では、事前トレーニング済みのMask R-CNN(マスク領域ベースの畳み込みニューラルネットワーク)を使用して新しく生成されたデータセットFakeSetを使用して、2,546枚の画像を分析しました。評価結果によると、289枚の画像はゴミ(鳥の存在さえ検出されなかった)、717枚は不満足(一般的に使用される指標Fスコアが0.8未満)、1,540枚は満足できるものでした。 F スコアは、最高のスコアを優先する歪んだ正規分布に従います。

要約すると、この論文では、FakeSet は実際のデータセットに近い検出およびセグメンテーション結果を達成していると結論付けています。ほとんどの画像は完全に本物ではありませんが、正しい変換の割合も非常に高く、検出およびセグメンテーション結果も非常に信頼性が高い (80% 以上) です。これは、生成された画像が肉眼では認識できないほどリアルであり、最先端のディープ ニューラル ネットワークのテストにも耐えられることを示唆しています。

<<:  AIOps で IT 運用にインテリジェンスを組み込む方法

>>:  ビッグデータと AI は食品・飲料業界の発展にどのように役立つのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

中国のこの場所で:人工知能の新たな革命が起こる - 中国におけるAIの現状分析

中国はなぜ米国と同じくらい多くの人工知能研究者を育成しているにもかかわらず、機械学習などの主要分野で...

この式がブロックされると、AI IQはゼロになります

[[214770]]この記事はQuantum School(WeChat:quantumschool...

ボルチモア、これまでで最も厳しい顔認識禁止法を制定する可能性

米国のボルチモア市で検討されている条例は、民間人だけでなく法執行機関や政府機関による顔認識技術の購入...

何か効率的な「錬金術」アーティファクトをお勧めいただけますか? Fudan fastNLPチームが内部パラメータ調整ツールfitlogをリリース

このパラメータ調整ツールは、実験結果の表形式表示、カスタムメモ、フロントエンド操作の記録の削除/非表...

畳み込みニューラルネットワークのパフォーマンス最適化

導入畳み込みはニューラル ネットワークのコア計算の 1 つです。コンピューター ビジョンにおける畳み...

...

GoogleのチーフAIサイエンティスト、フェイフェイ・リーがスタンフォード大学のAIラボを離れ、再び戻る可能性

BI中国語ウェブサイトが6月28日に報じた。グーグルの主任人工知能(AI)科学者、フェイフェイ・リー...

...

AIチャットボットとメンタルヘルス

パンデミック、経済不況、ヨーロッパでの戦争はすべて、ネガティブな感情や憂鬱感を引き起こす要因となって...

...

...

自動運転は衛生分野に適用され、問題点に直接対処し、将来性が期待できる

自動運転技術の開発は加速しており、商業的な検討も日々増加しています。現段階では、業界では貨物輸送と旅...

90 年代以降の技術オタクと彼の代替検索エンジン Magi

最近、Magiという検索エンジンが注目を集めています。この検索エンジンは、私たちが持っている一般的な...

専門家の洞察: 5G とロボットの未来を実現する

[[423559]] 5Gの開発と導入は、特にアジアで加速しています。現場ではさまざまな試験が進行中...