AIはたった1語で手書きを真似できる、ディープフェイクテキスト版が登場、ネットユーザー「すごくリアル」

AIはたった1語で手書きを真似できる、ディープフェイクテキスト版が登場、ネットユーザー「すごくリアル」

[[405574]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ついに誰かが私の小学生の頃の夢を実現してくれました!

自分の手書きの文字を写真に撮るだけで、AI が英語の宿題を「完全に同じ」スタイルで書き写すのを手伝ってくれます。

他人の宿題をコピーするのもOKです...

これは、手書きを模倣することしかできず、数百ドル、あるいは数千ドルもする多くの「宿題ツール」よりもはるかに優れています。

えーっと、焦点を当てましょう:

機能は強力ですが、英語の宿題をコピーするためのものではありません。 (宿題は真剣にやらなければなりません!)

これはFacebook AIの最新製品、「テキスト スタイル ブラシ」です。手書きのテキスト一式を完璧に復元するには、手書きの写真だけが必要です。

花や木の移植に使用できるだけでなく、「醤油瓶」を突然「急須」に変えることもできます。

スタイルを直接置き換えて、果物や野菜の店内の印刷された文字をすべて手書きにすることもできます。

写真に書かれた文章も真実ではない可能性があるようです。

書式ブラシよりも優れています:テキストも変更できます

実際の使用においては、TextStyleBrush は必要な場所に適用される書式ブラシです。

本当に素晴らしいのは、手書きをシミュレートできることです。

テキストを入力し、手書きの単語を 1 つ追加するだけで、「手書きバージョン」が生成されます。

この効果は非常にリアルなので、肉眼では違いを見分けることは不可能です。

野菜市場で印刷された値札を手書きの値札に置き換える過程で、印刷されていないサンプルを識別し、変換と合成を自動的にスキップすることもできます。

△手書きのラベル2枚は変更なし

TextStyleBrush は、特定のフォント形式をエミュレートする場合にも優れたパフォーマンスを発揮します。

ポスター、ゴミ箱、道路標識、飲料ボトル、店舗装飾など、あらゆる種類のテキストスタイルを扱うことができます。

直感的な効果に加えて、開発者は合成された画像のデータ分析も行いました。

TextStyleBrush によって生成された画像は、合成誤差 (MSE) が大幅に削減され、ピーク信号対雑音比 (PSNR) と構造類似性 (SSIM) も大幅に改善されました。

テキスト認識精度に関しては、TextStyleBrush は 3 つのデータセットすべてで優れたパフォーマンスを発揮します。

精度は95%以上です。

GANは本物のテキストと偽物のテキストを区別することを困難にする

Facebookによると、「テキスト スタイル ブラシ」TextStyleBrushは、書式ブラシと同様に、同じテキスト内容のテキストに対してスタイル変換を実行できる自己教師あり方式に基づいてトレーニングされたモデルです。

もちろん、Word 形式のブラシだけではなく、写真内のテキストを直接置き換えることもできるので、モデルはテキスト認識画像分割の方法も学習する必要があります。

△逆光シーンも問題なし

画像のセグメンテーションとテキストスタイルの転送を同時に実現するために、TextStyleBrush モデルはStyleGAN2に基づいて設計されており、非常にリアルな画像写真を生成できます。

しかし、StyleGAN2 には 2 つの問題があります。

  • まず、画像を生成する方法は「ランダム」であるため、出力される画像の特徴を制御する方法はありません。ただし、TextStyleBrush は指定されたテキストの画像を生成する必要があります。
  • 2 番目に、StyleGAN2 の全体的なスタイルは制御されていませんが、TextStyleBrush のスタイルには、色、スケール、スタイルの転送などの機能、さらには個人の特性による手書きの詳細の違いなど、大量の情報の組み合わせが含まれます。

この目的のために、TextStyleBrush はまず、テキスト情報とスタイルを 2 つの「追加条件」として使用してモデルの出力を制御することにより、モデルが画像をランダムに生成するという問題を解決します。

次に、テキストのスタイルの特徴をさらに細かく制御するために、ニューラル ネットワーク層内のさまざまなスタイル情報が抽出され、テキスト ジェネレーターに注入され、さまざまなスケール (色、全体的なスタイル、詳細) でのテキストのスタイルの制御が容易になります。

さらに、画像によって解像度が異なるため、ジェネレーターは同様の地域解像度でテキストを生成して置き換える必要もあります。

この目的のために、このモデルでは、生成されたテキスト画像が入力画像の解像度と一致するように、高解像度と低解像度を制御できる構造が追加されています。

このように、置き換え前と置き換え後のフォントの鮮明さに大きな違いはありません。

しかし、写真と違って、テキストのスタイルは実際にはより自由であるため、スタイルの信憑性を言うのが難しい場合があります。

この目的のために、Facebook はトレーニング中に、スタイル分類、テキスト認識 (OCR)、GAN の 3 つのモデルを組み合わせて入力スタイル/テキスト コンテンツを保持し、どれを置き換えるかを決定する革新的な自己教師ありトレーニング方法を導入しました。

たとえば、テキスト認識では、TextStyleBrush にテキスト画像を生成させた後、モデルは事前にトレーニングされたテキスト認識構造を使用して、画像のテキスト コンテンツを「判断」し、スコアを付与します。

このようにトレーニングされたモデルは、実際に非常に有用であることがわかりました。

ネットユーザー:偽物を本物と間違えることはありますか?ちょっと心配です…

これまで人間の顔を合成することは何度も試みてきましたが、手書き文字を合成するのは今回が初めてです。

そして、それは本当にうまく機能します!

そのため、TextStyleBrush がリリースされると、大きな注目を集めました。

ネットユーザーの中には、すでにその用途を想像し始めている人もいる。

ファンシー署名の世界へようこそ!

LeCun氏もリツイートした。

しかし、観ることはできてもプレイすることができないというのは本当に不便であり、プレイしたくてうずうずしている一部のネットユーザーが質問に来ました。

TextStyleBrush は一般公開される予定ですか?

これは当然、議論の余地のある点につながります。

合成された手書き文字は本物と見間違うほど本物らしく見えますが、悪用されたり悪意を持って使用されたらどうなるでしょうか?

誰の手書きも簡単に合成できると仮定すると、署名が必要な多くの場面ではどうすればいいのでしょうか?

例えば、医者の「筆記体」の処方箋さえも真似できれば…と言うネットユーザーもいる。

セキュリティとプライバシーに関する懸念に加えて、これはフォントデザイナーにとって良いニュースではありません。

結局のところ、すべてのフォントには著作権があります。簡単に模倣できるのであれば、海賊版が大量に出回って、作者自身でさえ本物と偽物の区別がつかなくなるのではないでしょうか。

一部のネットユーザーはこう言った。「これは真実と虚偽を区別するのが難しいディストピアの世界に少し近づいている…」

これに対して、FacebookのCTOは次のように答えた。

手書きの偽造に利用される可能性があるため、論文とデータセットのみを公開し、ソースコードはオープンソースにしません

研究とデータセットを共有する目的は、テキストベースのディープフェイクを防ぐことでもあります。

どう思いますか?

TextStyleBrush データセット:
https://github.com/facebookresearch/IMGUR5K-手書きデータセット

論文の宛先:
https://scontent-fml2-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf

<<:  機械学習の一般的な概念を普及させる

>>:  IoTが災害管理にどのように役立つか

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ビル・ゲイツ:AIが最大の影響を与えるには何十年もかかる

[[271684]]ビル・ゲイツは、世界を変えるトレンドを予見し、それを活用することで、史上最も成功...

新しい機械学習アプローチによりエネルギー消費を20%削減

エンジニアは、エネルギー消費を20%以上削減できる新しい機械学習手法を開発した。このアプローチにより...

孫正義氏:今後 30 年の人工知能と IoT(詳細記事)

[[264296]]これは非常に興味深いスピーチです。これはMWCでソフトバンクの孫正義氏が行った...

OpenAIがズームイン!史上最強の「モデルストア」が立ち上げられ、すべてのChatGPTアプリケーションを接続する

OpenAI がまたしてもビッグトリックを公開しました!簡単に言えば、サム・アルトマンは市場にあるす...

5000億の大台を突破?多くの国で人工知能が急速に進歩している

近年、モノのインターネット、クラウドコンピューティング、人工知能などの新世代技術が急速に発展し、特に...

人間はAIに勝てるか?私たちは機械に置き換えられるのでしょうか?

2017年、中国の囲碁棋士である柯潔はAI AlphaGoとの対戦で惨敗し、コート上で涙を流し、人...

これは私が今まで読んだ TensorFlow を説明する最も徹底的な記事です。

はじめに: 「私の名前はジェイコブです。Google AI Residency プログラムの奨学生で...

...

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...

再び攻撃! AI+教育に注力する学百軍は、年間10億元という小さな目標を設定

「今年末までに、学覇君は年間売上高10億元を確保するという小さな目標を達成する予定です」と張凱蕾氏は...

...

メタ研究者が新たなAIの試み:地図や訓練なしでロボットに物理的なナビゲーションを教える

Meta Platformsの人工知能部門は最近、少量のトレーニングデータのサポートにより、AIモデ...

予測分析の 4 つの業界における用途

[[436125]]画像ソース: https://pixabay.com/images/id-602...

Google AIがチューリングテストに合格、ビッグモデルドクターが登場か? GPT-4は17人の医師を困惑させた奇妙な病気を診断した

人類に利益をもたらす AGI を開発する必要がある理由の 1 つ:妻は過去 5 年間、あらゆる種類の...