異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

異種族の創造、AIがキリンの写真を鳥に変換し、人間と機械を欺く

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

AI がどのように画像を生成し検出するかを研究する場合、明確な研究テーマが必要です。最近、コーネル大学の 3 人の研究者、ダニエル V. ルイス、ガブリエル サロモン、エドゥアルド トッドは、生成的敵対的ネットワーク (GAN) を使用して新しいデータを作成し、画像間の変換を研究することで、キリンの写真を鳥の写真に変換するように人工知能をトレーニングすることを決定しました。この論文は、Computer on the Beach (COTB'20) 2020 カンファレンスにも提出されました。

論文アドレス: https://arxiv.org/abs/2001.03637

画像から画像への変換は、衛星画像から地図を生成することから、衣服の輪郭だけから完全な衣服画像を生成することまで、幅広く使用されています。論文の研究では、キリンと鳥類は大きさ、質感、形態が異なるため、キリンを鳥類に変化させることは難しいことが判明した。彼らは、キリンと鳥の画像を大量に使用して、InstaGAN と呼ばれる教師なしのクロスドメイン翻訳モデルをトレーニングしました。

InstaGANは2019年に韓国科学技術院と浦項工科大学の研究者によって提案され、関連論文「InstaGAN: インスタンス認識型画像間翻訳」もICLR2019に採択されました。

最終的な鳥製品は、元の画像のレイアウトと背景を保持しますが、キリンを直接鳥に変換します。生成された鳥は存在しないことを強調することが重要です。これは単に InstaGAN の作成の結果です。

この論文の革新性は、著者自身の言葉によれば、「今回はリンゴをオレンジに変えたのではなく、象をバナナに変えた」ということである。これまでの教師なし画像間変換の例は、立っているライオンを横たわっているライオンに、猫を犬に、馬をシマウマに変換するといったものがほとんどでしたが、これらのトレーニングは比率や形状が非常に似ているため、難易度が異なります。

具体的にはどのようにやったのでしょうか?

GAN をトレーニングして関連画像を生成するために使用されるデータセットは、COCO (Common objects in Context) と Caltech-UCSD Birds 200 の 2 つです。 COCOデータセットには、91種類以上の画像328,000枚が含まれています。著者らは、トレーニング用と検証用にそれぞれ2,546枚と101枚のキリン画像を選択しました。また、200種以上を主にカバーする別の鳥類データセットであるCaltech-UCSD Birds 200-2011から、80%にあたる9,414枚の鳥類画像をトレーニング用に、20%にあたる374枚の画像を検証用に選択しました。

各画像にはキリンと鳥の輪郭が見られます。 AI には 2 つの主なタスクがあります。1 つはキリンを鳥に変えることです。もう 1 つは、見た画像が本物の鳥なのか、偽のキリン鳥なのかを判断することです。

次に、トレーニングを開始します。ほとんどのパラメータは、元の InstaGAN 論文と同じままです。キリンと鳥のデータセットの画像は、双線形補間を使用して 256x256 にサイズ変更され、GPU トレーニングには約 3 週間かかりました (2 つの NVIDIA RTX 2080 GPU を使用した場合、時間は 1 週間半に短縮できます)。

InstaGAN がトレーニングで使用する損失関数には、最小二乗 GAN 損失、サイクル損失、コンテキスト損失、アイデンティティ損失があり、最終結果における重要度に応じて重み付けされます。サイクル損失は最も重要視されます。同じことが LSGAN にも当てはまり、収束性が向上し、消失勾配問題の可能性が減少します。消失勾配問題では、良好な視覚的結果を達成して損失を最小限に抑えるには 100 エポック以上が必要です。

3週間のトレーニングの最後に、彼らには人工の鳥の画像セットである FakeSet が与えられました。次の図は、画像間の変換の例を示しています。

元の画像とマスクだけでなく、変換された画像とマスクも確認できます。ポーズ、空間配置、背景は変更されていないことに注意してください。つまり、InstaGAN は、キリンがほとんど遮られておらず横向きに立っている画像を変換することをかなりうまく学習し、今では同じ位置にある鳥も生成しています。興味深いことに、InstaGAN は興味深い「不正行為」方法を学習しました。明るい背景と対照的な暗い鳥を生成することで、人間や機械の識別子をうまく欺くことができます。

次に、InstaGAN によって生成された完成画像を見てみましょう。

いくつかの変換は印象的です。 InstaGAN は、マクロ撮影のように見せるために、上部の景色をぼかす方法を学習しました。遷移が完全にスムーズではないにもかかわらず、キリンの肩は残っていますが、AI がそれを気付かないように巧みに石に変えました。

背景のぼかし効果はかなり良好です。前景を処理する際に、InstaGAN は木片を鳥の止まり木として作成し、枝や岩の割れ目などのディテールを強調し、近くの鳥の足をぼかしました。全体的な効果は比較的自然です。しかし、いくつかの写真ではキリンの腹部と脚がぼんやりと見えているため、InstaGAN はおそらく葉か何かと間違えることを期待して、それらを緑色に変えた。

もちろん、変換効果は良くない場合も多々あります。異常な背景の影響が考えられるため、AI は画像の外観を変更することに成功しませんでした。また、ここでも、AI がキリンを除去するための一般的な戦略は、鳥の体をキリンの頭、首、肩にコピーして貼り付け、次にキリンの脚をできるだけ隠すことであることは明らかです。この点を念頭に置いて上の写真を見ると、キリンの長い脚がそのまま残っていることがすぐにわかるでしょう。モデルの数々の失敗は、すべてキリンの脚に関係しており、脚を隠すのは難しいのです。

生成された画像のリアリティと品質を評価するために、著者らは定性的および定量的な分析を実行しました。定性分析では、FakeSet から 335 枚の画像をランダムに選択して評価しました。基準は、変換品質、輪郭、テクスチャでした。選択肢は「良い」と「悪い」の 2 つだけでした。各属性の最終スコアは、335 枚の画像の平均スコアであり、0 から 1 までのスコアで表されます (0 は品質が悪いことを、1 は品質が良いことを示します)。属性の値が 0.75 に等しい場合、画像の 3/4 はこの属性で良好なパフォーマンスを示し、画像の 1/4 はパフォーマンスが低いことを意味します。詳細については以下の表をご覧ください。

定量分析では、事前トレーニング済みのMask R-CNN(マスク領域ベースの畳み込みニューラルネットワーク)を使用して新しく生成されたデータセットFakeSetを使用して、2,546枚の画像を分析しました。評価結果によると、289枚の画像はゴミ(鳥の存在さえ検出されなかった)、717枚は不満足(一般的に使用される指標Fスコアが0.8未満)、1,540枚は満足できるものでした。 F スコアは、最高のスコアを優先する歪んだ正規分布に従います。

要約すると、この論文では、FakeSet は実際のデータセットに近い検出およびセグメンテーション結果を達成していると結論付けています。ほとんどの画像は完全に本物ではありませんが、正しい変換の割合も非常に高く、検出およびセグメンテーション結果も非常に信頼性が高い (80% 以上) です。これは、生成された画像が肉眼では認識できないほどリアルであり、最先端のディープ ニューラル ネットワークのテストにも耐えられることを示唆しています。

<<:  AIOps で IT 運用にインテリジェンスを組み込む方法

>>:  ビッグデータと AI は食品・飲料業界の発展にどのように役立つのでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

GPT-4 コードインタープリターのベンチマーク! CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

GPT-4 コードインタープリターをベンチマークし、CUHK の最新の研究では「大きな動き」が発表さ...

Baiduの新しいAIインフラがCIFTISでデビューし、CTOの王海峰が業界インテリジェンスの推進におけるBaiduの成果を紹介

AIはあらゆる分野に新たな活力を吹き込み、AIの新しいインフラはサービス貿易部門を含む社会経済の発展...

2020年に人工知能はどのように発展するでしょうか?知っておくべき6つのトレンド

過去1年を振り返ると、人工知能の発展は繁栄し、多彩なものであったと言えます。人工知能が3回連続で政府...

...

DAMOアカデミーが新世代の音声認識モデルDFSMNを発表し、オープンソースを発表

最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFSMNを発表しました。...

NTRU 1.2 リリース Java 用 NTRU 暗号化アルゴリズム ライブラリ

NTRU 1.2 バージョンには多くの機能強化とバグ修正が含まれていますが、このバージョンは以前のバ...

...

人工知能はすでに無敵なのでしょうか? AIに取って代わられない6つの仕事

人工知能は万能のように思えますが、実際には人工知能に代替できない職業も数多くあります。 HSBCは銀...

ディープラーニングと機械学習を混同しないでください。

[[313942]] [51CTO.com クイック翻訳] ご存知のとおり、ディープラーニングは人...

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

トレンド1:中国の潜在力が爆発し、米国の優位性が揺らぐ[[226879]] 2017年、中国の人工知...

視覚慣性走行距離計のIMU事前統合モデルについてお話しましょう

エンジニアリングの実践では、単に視覚オドメトリ (VO) を使用するのではなく、視覚と IMU を組...

AIとクラウドコンピューティングの深い統合は何をもたらすのでしょうか?

「AIは多くのリソースを消費し、強力なコンピューティング能力を必要とし、規模の経済性を反映する技術...