論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ジェネレーティブ AI は人工知能コミュニティに旋風を巻き起こしました。個人も企業も、Vincent 画像、Vincent ビデオ、Vincent 音楽など、関連するモーダル変換アプリケーションの作成に熱心に取り組んでいます。

最近、ServiceNow Research、LIVIA、その他の研究機関の研究者数名が、テキストの説明に基づいて論文内のグラフを生成しようと試みました。この目的のために、彼らはFigGenという新しい手法を提案し、関連論文もICLR 2023のTiny Paperとして掲載されました。

写真

論文アドレス: https://arxiv.org/pdf/2306.00800.pdf

論文でグラフを作成するのはそんなに難しいことなのかと疑問に思う人もいるかもしれません。これは科学研究にどのように役立つのでしょうか?

科学研究の図生成は、研究結果を簡潔かつ分かりやすく伝えるのに役立ちます。また、図の自動生成は、時間と労力を節約し、図をゼロから設計するために多大な労力を費やす必要がないなど、研究者に多くの利点をもたらします。さらに、視覚的に魅力的で理解しやすい図をデザインすることで、論文をより多くの人に理解してもらえるようになります。

ただし、図を生成するには、ボックス、矢印、テキストなどの個別のコンポーネント間の複雑な関係を表現する必要があるため、いくつかの課題もあります。自然画像の生成とは異なり、論文のグラフの概念は表現が異なり、きめ細かい理解が必要になる場合があります。たとえば、ニューラルネットワークグラフの生成には、分散の大きい不適切問題が伴います。

そのため、この論文の研究者は、論文とグラフのペアのデータセットで生成モデルをトレーニングし、グラフの構成要素と論文内の対応するテキストとの関係を捉えました。これには、さまざまな長さや高度な技術的なテキストの説明、さまざまな図のスタイル、画像のアスペクト比、テキストのレンダリングフォント、サイズ、方向の問題に対処する必要があります。

具体的な実装プロセスでは、研究者は最近のテキストから画像への変換の成果に触発され、拡散モデルを使用してチャートを生成し、テキストの説明から科学研究チャートを生成するための潜在的な拡散モデルである FigGen を提案しました。

この拡散モデルのユニークな点は何ですか?以下で詳細を見てみましょう。

モデルと方法

研究者たちは潜在拡散モデルをゼロから訓練した。

まず、画像を圧縮された潜在表現にマッピングするための画像オートエンコーダを学習します。画像エンコーダーは、KL 損失と OCR 知覚損失を使用します。条件付けに使用されるテキストエンコーダーは、拡散モデルのトレーニング中にエンドツーエンドで学習されます。以下の表 3 は、画像オートエンコーダアーキテクチャの詳細なパラメータを示しています。

次に、拡散モデルは潜在空間で直接相互作用して、データが破損したフォワードスケジューリングを実行し、時間的およびコンテキスト条件付きノイズ除去 U-Net を使用してプロセスを回復する方法を学習します。

データセットに関しては、研究者らは Paper2Fig100k を使用しました。これは論文の図とテキストのペアで構成されており、81,194 個のトレーニングサンプルと 21,259 個の検証サンプルが含まれています。下の図 1 は、Paper2Fig100k テストセットのテキスト説明を使用して生成されたグラフの例です。

モデルの詳細

1 つ目は画像エンコーダーです。最初の段階では、画像オートエンコーダーがピクセル空間から圧縮された潜在表現へのマッピングを学習し、拡散モデルのトレーニングを高速化します。画像エンコーダーは、画像の重要な詳細 (テキストのレンダリング品質など) を失うことなく、潜在画像をピクセル空間にマッピングし直すことも学習する必要があります。

この目的のために、研究者らは、画像を f=8 の係数でダウンサンプリングするボトルネックを備えた畳み込みコーデックを定義しました。エンコーダーは、ガウス分布による KL 損失、VGG 知覚損失、および OCR 知覚損失を最小化するようにトレーニングされます。

次はテキストエンコーダーです。研究者たちは、一般的なテキストエンコーダーはグラフ生成のタスクには適していないことを発見しました。そこで彼らは、埋め込みチャネルサイズ 512 を使用して、拡散プロセスで最初からトレーニングされた Bert トランスフォーマーを定義します。これは、U-Net のクロスアテンションレイヤーを調整するために使用される埋め込みサイズでもあります。研究者らはまた、異なる設定（8、32、128）での変圧器層の数の変化を調査しました。

最後に、潜在的拡散モデルがあります。下の表 2 は、U-Net のネットワークアーキテクチャを示しています。研究者らは、画像の知覚的に等価な潜在表現に対して拡散プロセスを実行しました。画像の入力サイズは 64x64x4 に圧縮され、拡散モデルが高速化されました。彼らは 1,000 の拡散ステップと線形ノイズスケジュールを定義しました。

トレーニングの詳細

研究者らは、画像オートエンコーダをトレーニングするために、4 つの 12GB NVIDIA V100 グラフィックカードを使用し、有効バッチサイズが 4 サンプル、学習率が 4.5e−6 の Adam オプティマイザーを使用しました。トレーニングの安定性を実現するために、識別器を使用せずに 50,000 回の反復でモデルをウォームアップしました。

潜在拡散モデルのトレーニングには、有効バッチサイズ32、学習率1e−4のAdamオプティマイザーも使用しました。 Paper2Fig100k データセットでモデルをトレーニングする際、8 枚の 80GB NVIDIA A100 グラフィックカードが使用されました。

実験結果

生成プロセス中、研究者らは 200 ステップの DDIM サンプラーを使用し、各モデルに対して 12,000 個のサンプルを生成して、FID、IS、KID、OCR-SIM1 を計算しました。 Steady は、分類子フリーガイダンス (CFG) を使用して過剰調節をテストします。

以下の表 1 は、さまざまなテキストエンコーダーの結果を示しています。大きなテキストエンコーダーが最良の質的結果を生成し、CFG のサイズを大きくすることで条件付き生成を改善できることがわかります。定性的なサンプルは問題を解決するのに十分な品質ではありませんでしたが、FigGen はすでにテキストと画像の関係を把握していました。

下の図 2 は、分類器ガイダンス (CFG) なしでパラメータを調整したときに生成された追加の FigGen サンプルを示しています。研究者たちは、CFG のサイズを大きくすると (定量的にも実証されている)、画像品質が向上することを観察しました。

写真

下の図 3 は、FigGen 生成のさらなる例を示しています。サンプル間の長さのばらつきと、テキスト記述の技術レベルに注意してください。これらは、モデルが理解可能な画像を正しく生成する難易度に密接に影響します。

写真

しかし研究者らは、生成されたチャートが現時点では論文著者に実用的な助けを提供することはできないものの、依然として有望な探究の方向性であることも認めている。

研究の詳細については原著論文を参照してください。

<<: 大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

>>: Google、金融機関の内部リスク警告の精度を2～4倍に高められるAIマネーロンダリング対策ツールをリリース

ブログ

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

モデルと方法

実験結果

AIビッグモデルがインテリジェント交通の未来を切り開く？

AIスタートアップが成熟するための4つの段階と懸念事項

eMule プロトコルの DHT アルゴリズム

エッジAIがスマートホームの未来である理由

企業が人工知能を活用してサービスをパーソナライズする方法

開発に重点を置き、革新を追求します。 LeaTech Global CTO Leadership Summit が始まりました!

推薦する

マイクロソフトがBing Chatのエンタープライズ版を発表。将来的にはスタンドアロン製品として発売され、価格は1人あたり月額5ドル。

Python を使ってシンプルな遺伝的アルゴリズムをゼロから実装する

周洪義：人工知能には多くのセキュリティ上の弱点がある

ChatGPTは人間よりも優れているか？ - チューリングテストの観点からの議論

Kuaishouは、技術的な実践を共有する最初のFlutter交換会を開催しました

Microsoft の Zhu Chenguang: 事前トレーニング済みモデルの次のステップは何ですか? PLMの「不可能の三角形」を突破する

物体検出のための深層畳み込みニューラルネットワークの進歩

ロンドンの顔認識で誤った人物が逮捕される：合理的な使用が鍵

GPT-5 が誕生しました。50,000 個の H100 が必要です。世界のH100総需要は43万個、Nvidia GPUは品薄の嵐に

GoogleはAIモデルのトレーニングのためだけに「アメリカ版Tieba」のデータを購入するのに6000万ドルを費やした！アルトマンは第3位の株主である