この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ついに誰かが私の小学生の頃の夢を実現してくれました! 自分の手書きの文字を写真に撮るだけで、AI が英語の宿題を「完全に同じ」スタイルで書き写すのを手伝ってくれます。 他人の宿題をコピーするのもOKです... これは、手書きを模倣することしかできず、数百ドル、あるいは数千ドルもする多くの「宿題ツール」よりもはるかに優れています。 えーっと、焦点を当てましょう:
これはFacebook AIの最新製品、「テキスト スタイル ブラシ」です。手書きのテキスト一式を完璧に復元するには、手書きの写真だけが必要です。 花や木の移植に使用できるだけでなく、「醤油瓶」を突然「急須」に変えることもできます。 スタイルを直接置き換えて、果物や野菜の店内の印刷された文字をすべて手書きにすることもできます。 写真に書かれた文章も真実ではない可能性があるようです。 書式ブラシよりも優れています:テキストも変更できます実際の使用においては、TextStyleBrush は必要な場所に適用される書式ブラシです。 本当に素晴らしいのは、手書きをシミュレートできることです。 テキストを入力し、手書きの単語を 1 つ追加するだけで、「手書きバージョン」が生成されます。 この効果は非常にリアルなので、肉眼では違いを見分けることは不可能です。 野菜市場で印刷された値札を手書きの値札に置き換える過程で、印刷されていないサンプルを識別し、変換と合成を自動的にスキップすることもできます。 △手書きのラベル2枚は変更なし TextStyleBrush は、特定のフォント形式をエミュレートする場合にも優れたパフォーマンスを発揮します。 ポスター、ゴミ箱、道路標識、飲料ボトル、店舗装飾など、あらゆる種類のテキストスタイルを扱うことができます。 直感的な効果に加えて、開発者は合成された画像のデータ分析も行いました。 TextStyleBrush によって生成された画像は、合成誤差 (MSE) が大幅に削減され、ピーク信号対雑音比 (PSNR) と構造類似性 (SSIM) も大幅に改善されました。 テキスト認識精度に関しては、TextStyleBrush は 3 つのデータセットすべてで優れたパフォーマンスを発揮します。 精度は95%以上です。 GANは本物のテキストと偽物のテキストを区別することを困難にするFacebookによると、「テキスト スタイル ブラシ」TextStyleBrushは、書式ブラシと同様に、同じテキスト内容のテキストに対してスタイル変換を実行できる自己教師あり方式に基づいてトレーニングされたモデルです。 もちろん、Word 形式のブラシだけではなく、写真内のテキストを直接置き換えることもできるので、モデルはテキスト認識と画像分割の方法も学習する必要があります。 △逆光シーンも問題なし 画像のセグメンテーションとテキストスタイルの転送を同時に実現するために、TextStyleBrush モデルはStyleGAN2に基づいて設計されており、非常にリアルな画像写真を生成できます。 しかし、StyleGAN2 には 2 つの問題があります。
この目的のために、TextStyleBrush はまず、テキスト情報とスタイルを 2 つの「追加条件」として使用してモデルの出力を制御することにより、モデルが画像をランダムに生成するという問題を解決します。 次に、テキストのスタイルの特徴をさらに細かく制御するために、ニューラル ネットワーク層内のさまざまなスタイル情報が抽出され、テキスト ジェネレーターに注入され、さまざまなスケール (色、全体的なスタイル、詳細) でのテキストのスタイルの制御が容易になります。 さらに、画像によって解像度が異なるため、ジェネレーターは同様の地域解像度でテキストを生成して置き換える必要もあります。 この目的のために、このモデルでは、生成されたテキスト画像が入力画像の解像度と一致するように、高解像度と低解像度を制御できる構造が追加されています。 このように、置き換え前と置き換え後のフォントの鮮明さに大きな違いはありません。 しかし、写真と違って、テキストのスタイルは実際にはより自由であるため、スタイルの信憑性を言うのが難しい場合があります。 この目的のために、Facebook はトレーニング中に、スタイル分類、テキスト認識 (OCR)、GAN の 3 つのモデルを組み合わせて入力スタイル/テキスト コンテンツを保持し、どれを置き換えるかを決定する革新的な自己教師ありトレーニング方法を導入しました。 たとえば、テキスト認識では、TextStyleBrush にテキスト画像を生成させた後、モデルは事前にトレーニングされたテキスト認識構造を使用して、画像のテキスト コンテンツを「判断」し、スコアを付与します。 このようにトレーニングされたモデルは、実際に非常に有用であることがわかりました。 ネットユーザー:偽物を本物と間違えることはありますか?ちょっと心配です…これまで人間の顔を合成することは何度も試みてきましたが、手書き文字を合成するのは今回が初めてです。 そして、それは本当にうまく機能します! そのため、TextStyleBrush がリリースされると、大きな注目を集めました。 ネットユーザーの中には、すでにその用途を想像し始めている人もいる。
LeCun氏もリツイートした。 しかし、観ることはできてもプレイすることができないというのは本当に不便であり、プレイしたくてうずうずしている一部のネットユーザーが質問に来ました。
これは当然、議論の余地のある点につながります。 合成された手書き文字は本物と見間違うほど本物らしく見えますが、悪用されたり悪意を持って使用されたらどうなるでしょうか? 誰の手書きも簡単に合成できると仮定すると、署名が必要な多くの場面ではどうすればいいのでしょうか? 例えば、医者の「筆記体」の処方箋さえも真似できれば…と言うネットユーザーもいる。 セキュリティとプライバシーに関する懸念に加えて、これはフォントデザイナーにとって良いニュースではありません。 結局のところ、すべてのフォントには著作権があります。簡単に模倣できるのであれば、海賊版が大量に出回って、作者自身でさえ本物と偽物の区別がつかなくなるのではないでしょうか。 一部のネットユーザーはこう言った。「これは真実と虚偽を区別するのが難しいディストピアの世界に少し近づいている…」 これに対して、FacebookのCTOは次のように答えた。
どう思いますか? TextStyleBrush データセット: 論文の宛先: |
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[436214]]パーソナライゼーションと自動化は、ユーザー エクスペリエンスの品質を向上させるた...
一方で感染症の予防と抑制、他方で春節の旅行ラッシュの帰省があり、今年の仕事再開への道のりは異例のもの...
51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて...
現在、人工知能は人類に大きな発展の機会をもたらす一方で、さまざまなリスクや課題も伴っています。科学技...
人工知能 (AI)、自動化、認知システムを取り巻く原則と実践は、ビジネス分野、専門知識、専門分野に関...
2019年ももうすぐ終わり。何もなかったこの一年を振り返って、最も給与が高い職種はどれでしょうか?ア...
最近、主要プラットフォームのホームページには、生地をこねる、餡を作る、型から外す、焼くまで、月餅を作...
画像編集の分野がここ数年で飛躍的に成長したことは周知の事実です。しかし、ビデオ分野ではまだいくつかの...
[[406628]]仮想環境 (ALE、MuJoCo、OpenAI Gym) は、エージェントの制御...
その中で、ヘルスケア業界は強力なスポンサーであり、新しいテクノロジーを積極的に導入してきました。人工...
企業のセキュリティ システム開発のペースが加速するにつれて、より高度な新しいタイプのサイバー攻撃が出...