FacebookのAIはたった1語で手書きを真似できるが、オープンソース化するには強力すぎる

FacebookのAIはたった1語で手書きを真似できるが、オープンソース化するには強力すぎる

Facebook は最近、画像内のテキスト スタイルをコピーして再現できる新しい画像 AI「TextStyleBrush」を発表しました。

この技術の助けを借りれば、「標準」として単語を1つ入力するだけで、AIがワンクリックで記事全体にわたってあなたの文章スタイルを模倣できます。その効果は驚くべきものです。

さらに、さまざまなシーン(ポスター、ゴミ箱、道路標識など)のテキストを置き換えるためにも使用できます。下の図では、左側が青い四角形内に単語が表示された元のシーン画像で、右側がテキスト置換後の画像です。

写真からわかるように、AI はほぼすべてのスタイルのフォントを処理できます。下の図では、各画像のペアは、左側に入力ソースのスタイル、右側に新しいコンテンツ (文字列) を示しています。両端のフォント スタイルはまったく同じに見えます。出力画像はすべて、ソース画像と比較すると見た目が少しぼやけているように見えますが、ほとんどの場合、この手法は非常にうまく機能していることがわかります。

他の手書き模倣 AI と比較して、TextStyleBrush はより強力で、より微妙な観点からテキスト スタイルを分析できるため、さまざまな角度や背景で手書きを模倣できます。

次の図は、醤油ボトル (Soya) をお茶ボトル (Tea) に置き換える実装プロセスを示しています。

この強力な模倣ツールは、Facebook AI がリリースした「TextStyleBrush」です。単語を入力するだけで、手書き文字を完璧に再現できます。この技術の原理は、テキストとスタイルを分離できるワードプロセッサ アプリのスタイル ブラシ ツールに似ています。

  • 論文アドレス: https://scontent-sjc3-1.xx.fbcdn.net/v/t39.8562-6/10000000_944085403038430_3779849959048683283_n.pdf?_nc_cat=108&ccb=1-3&_nc_sid=ae5e01&_nc_ohc=Jcq0m5jBvK8AX--fG2A&_nc_ht=scontent-sjc3-1.xx&oh=8b7e8221bba5aba6b6331c643764dec5&oe=60EF2B81
  • データセットアドレス: https://github.com/facebookresearch/IMGUR5K-Handwriting-Dataset

以下の機能があります:

  • たった 1 つの単語で、写真内のテキストのスタイルを複製します。この AI モデルを使用すると、画像内のテキストを編集および置き換えることができます。
  • ほとんどの AI システムとは異なり、TextStyleBrush は、単一のサンプル単語を使用して手書きのテキストと画像を一度に置き換える初の自己教師あり AI モデルです。
  • 将来的には、パーソナライズされたメッセージや字幕などの分野で新たな可能性が開かれ、たとえば拡張現実 (AR) でのリアルな言語翻訳が可能になります。
  • 研究者たちは、この研究の機能、方法、結果を公開することで、人工知能分野における大きな課題であるディープフェイクテキスト攻撃など、この種の技術の潜在的な応用に関する議論や研究を促進することを期待しています。

TextStyleBrush は誤解を招く画像を作成するためにも使用される可能性があるため、Facebook の CTO は個人のソーシャル ネットワーキング サイトで、論文とデータセットのみを公開し、コードは公開していないと述べました。そして、ディープフェイクに対するアプローチと同様に、研究とデータセットを共有することで検出システムを構築し、攻撃を事前に防ぐことができると信じていると述べた。

TextStyleBrushはテキストスタイルの表現を学習できる

AI を使った画像生成は驚異的な速度で発展しており、歴史的な場面を再現したり、写真をゴッホなどの絵画風に変換したりできる技術が生まれています。現在、Facebook AI は、単語を 1 つ入力するだけで、手書きテキストのシーンとスタイルを置き換えることができる AI を構築しました。

ほとんどの AI システムは明確に定義された特殊なタスクを実行できますが、現実のシナリオでテキストや手書きのニュアンスを理解できるほど柔軟な AI システムを構築するのは非常に困難です。これは、さまざまなフォントや書体だけでなく、回転、曲線テキスト、画像ノイズなどのさまざまな変換を含む、幅広いテキスト スタイルを理解することを意味します。

Facebook AI は TSB (TextStyleBrush) アーキテクチャを提案しました。アーキテクチャは、ターゲット スタイルの監督なしで、元のスタイルのイメージのみを使用して、自己監督方式でトレーニングされます。フレームワークは、画像の実際のスタイルを自動的に見つけることができます。トレーニング中は、各単語ボックスに真の値 (ボックス内に表示されるテキスト) があると想定し、推論中は、単一のソース スタイルの画像と新しいコンテンツ (文字列) を受け取り、ターゲット コンテンツを含むソース スタイルの新しい画像を生成します。

ジェネレーターのアーキテクチャは StyleGAN2 モデルに基づいています。ただし、2 つの重要な制限があります。

まず、StyleGAN2 は無条件モデルです。つまり、ランダムな潜在ベクトルをサンプリングして画像を生成します。ただし、TextStyleBrush は指定されたテキストの画像を生成する必要があります。

次に、TextStyleBrush によって生成されるテキスト イメージのスタイルは制御されません。テキスト スタイルには、カラー パレットや空間変換などのグローバル情報と、個々の手書きの微妙な変化などの細かい情報の組み合わせが含まれます。

研究者たちは、上記の制限に対処するために、コンテンツとスタイルの表現を使用してジェネレーターを調整しました。テキスト スタイルのマルチスケール特性は、レイヤー固有のスタイル情報を抽出し、それをジェネレーターの各レイヤーに注入することによって処理されます。ジェネレーターは、目的のスタイルでターゲット イメージを生成するだけでなく、前景ピクセル (テキスト領域) を表すソフト マスク イメージも生成します。このようにして、ジェネレーターは、テキストの低解像度と高解像度の両方の詳細を制御し、目的の入力スタイルに合わせることができます。

この研究では、書体分類器、テキスト認識器、敵対的識別器を使用してソース スタイルとターゲット コンテンツを保持する新しい自己教師ありトレーニング基準も導入されています。まず、事前にトレーニングされたフォント分類ネットワークを使用して、入力テキストのスタイルをキャプチャするジェネレーターの能力を評価します。さらに、事前にトレーニングされたテキスト認識ネットワークを使用して、生成された画像の内容を評価し、ジェネレータがターゲット コンテンツをどの程度適切にキャプチャしているかを反映します。要約すると、このアプローチにより、トレーニングの効果的な自己監督が可能になります。

実験

表 2 は、TSB をトレーニングする際のさまざまな損失関数、スタイル機能拡張、およびマスクの役割を評価するアブレーション実験の結果を示しています。実験結果によると、TextStyleBrush によって生成された画像は MSE (合成誤差) が大幅に減少し、PSNR (ピーク信号対雑音比) と SSIM (構造類似性) が向上しました。

表 3 は、3 つのデータセットの画像で測定されたテキスト認識精度を示しています。実験結果によると、TSB は IC13 で 97.2%、IC15 で 97.6%、TextVQA で 95.0% の認識精度で、最高の認識効果を発揮しました。

表4は、TSB法と手書きテキスト生成用に特別に設計されたDavisら[14]のSotA法を比較し、生成された手書きテキストを定量的に比較したものです。 FID スコアが低いほど、ビルド品質は高くなります。明らかに、TSB アプローチは以前の研究よりも優れています。

TextStyleBrushは、AIが従来よりも柔軟かつ正確にテキストを認識できることを証明していますが、この技術には、金属表面の文字や色付きの文字を模倣できないなど、まだ多くの問題があります。Facebookは、この研究が拡大し続け、翻訳、自律表現、ディープフェイク研究の間の障壁を突破できることを期待しています。

失敗例

<<:  この目立たないロボットトラックにユニコーンが登場しました!

>>:  全天候型インテリジェント無人配達、即時消費が「無人」時代の到来を告げる

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ABCの中でビッグデータが最初に遅れをとる理由

[[211451]]人工知能 (AI)、ビッグデータ、クラウドコンピューティングは、今日のインターネ...

...

WAVE SUMMIT での Baidu Wang Haifeng: ディープラーニングが人工知能を産業大量生産に導入

「ディープラーニングは人工知能を大規模な工業生産の段階に押し上げています。ディープラーニングのフレー...

Nature: 地域や文化を超えて、AIはすべての人間に共通する16の表情を認識する

人々の間には大きな違いがしばしばありますが、私たちの存在にはほぼすべての人に共通する要素が数多くあり...

ウルトラマンの顔を平手打ちしろ、GPT-4 は今年は去年よりも怠惰だ!ネットユーザーによるオンラインテスト結果

GPT-4 が怠惰になる問題の解決に新たな進歩があります。今朝、ウルトラマンが、新年には GPT-4...

ドローンは緊急通信の発展に役立ちますが、この3つのポイントが重要です。

近年、インターネットの急速な発展に伴い、通信ニーズが継続的に高まり始めており、通信保証能力がますます...

重複ページの検索エンジンアルゴリズム分析

検索エンジンは一般的に、各 Web ページに対して一連の情報フィンガープリントが計算されるという考え...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...

知識とスキルの限界を押し広げる 24 の機械学習プロジェクト

導入データサイエンス (機械学習) プログラムは、この分野でのキャリアをスタートさせる有望な方法を提...

意思決定権を機械に委任することは可能でしょうか?

デジタルインテリジェンスは経営上の意思決定を促進し、驚くべき成果をもたらします名前が示すように、デー...

快手AIハッカソンは「AIの名の下に」みんなの幸福を向上させるために終了しました

最近、快手の内部インキュベーターである快手幸福実験室が主催した第2回ハッカソン「AIの名において」の...

次世代産業用ロボットに対する人工知能(AI)の影響

[[389728]]大量生産される製品に対する需要が高まるにつれ、製品には高品質で信頼性が高く、より...

よく使われる「生成AIライブラリ」の総合ガイド

皆さんこんにちは、Luga です。今日も引き続き、人工知能 (AI) エコシステムに関連するテクノロ...

将来、運転手や運転免許証は必要なくなるのでしょうか?自動運転車はどれくらい遠いのでしょうか?

多くの SF 映画では、このようなシーンがよく見られます。未来の車は完全に自動化されており、必要なと...

将来、人工知能に最も影響を受ける5つの業界!

人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...