論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ジェネレーティブ AI は人工知能コミュニティに旋風を巻き起こしました。個人も企業も、Vincent 画像、Vincent ビデオ、Vincent 音楽など、関連するモーダル変換アプリケーションの作成に熱心に取り組んでいます。

最近、ServiceNow Research、LIVIA、その他の研究機関の研究者数名が、テキストの説明に基づいて論文内のグラフを生成しようと試みました。この目的のために、彼らはFigGenという新しい手法を提案し、関連論文もICLR 2023のTiny Paperとして掲載されました。

写真

論文アドレス: https://arxiv.org/pdf/2306.00800.pdf

論文でグラフを作成するのはそんなに難しいことなのかと疑問に思う人もいるかもしれません。これは科学研究にどのように役立つのでしょうか?

科学研究の図生成は、研究結果を簡​​潔かつ分かりやすく伝えるのに役立ちます。また、図の自動生成は、時間と労力を節約し、図をゼロから設計するために多大な労力を費やす必要がないなど、研究者に多くの利点をもたらします。さらに、視覚的に魅力的で理解しやすい図をデザインすることで、論文をより多くの人に理解してもらえるようになります。

ただし、図を生成するには、ボックス、矢印、テキストなどの個別のコンポーネント間の複雑な関係を表現する必要があるため、いくつかの課題もあります。自然画像の生成とは異なり、論文のグラフの概念は表現が異なり、きめ細かい理解が必要になる場合があります。たとえば、ニューラル ネットワーク グラフの生成には、分散の大きい不適切問題が伴います。

そのため、この論文の研究者は、論文とグラフのペアのデータセットで生成モデルをトレーニングし、グラフの構成要素と論文内の対応するテキストとの関係を捉えました。これには、さまざまな長さや高度な技術的なテキストの説明、さまざまな図のスタイル、画像のアスペクト比、テキストのレンダリング フォント、サイズ、方向の問題に対処する必要があります。

具体的な実装プロセスでは、研究者は最近のテキストから画像への変換の成果に触発され、拡散モデルを使用してチャートを生成し、テキストの説明から科学研究チャートを生成するための潜在的な拡散モデルである FigGen を提案しました。

この拡散モデルのユニークな点は何ですか?以下で詳細を見てみましょう。

モデルと方法

研究者たちは潜在拡散モデルをゼロから訓練した。

まず、画像を圧縮された潜在表現にマッピングするための画像オートエンコーダを学習します。画像エンコーダーは、KL 損失と OCR 知覚損失を使用します。条件付けに使用されるテキスト エンコーダーは、拡散モデルのトレーニング中にエンドツーエンドで学習されます。以下の表 3 は、画像オートエンコーダ アーキテクチャの詳細なパラメータを示しています。

次に、拡散モデルは潜在空間で直接相互作用して、データが破損したフォワード スケジューリングを実行し、時間的およびコンテキスト条件付きノイズ除去 U-Net を使用してプロセスを回復する方法を学習します。

データセットに関しては、研究者らは Paper2Fig100k を使用しました。これは論文の図とテキストのペアで構成されており、81,194 個のトレーニング サンプルと 21,259 個の検証サンプルが含まれています。下の図 1 は、Paper2Fig100k テスト セットのテキスト説明を使用して生成されたグラフの例です。

モデルの詳細

1 つ目は画像エンコーダーです。最初の段階では、画像オートエンコーダーがピクセル空間から圧縮された潜在表現へのマッピングを学習し、拡散モデルのトレーニングを高速化します。画像エンコーダーは、画像の重要な詳細 (テキストのレンダリング品質など) を失うことなく、潜在画像をピクセル空間にマッピングし直すことも学習する必要があります。

この目的のために、研究者らは、画像を f=8 の係数でダウンサンプリングするボトルネックを備えた畳み込みコーデックを定義しました。エンコーダーは、ガウス分布による KL 損失、VGG 知覚損失、および OCR 知覚損失を最小化するようにトレーニングされます。

次はテキストエンコーダーです。研究者たちは、一般的なテキストエンコーダーはグラフ生成のタスクには適していないことを発見しました。そこで彼らは、埋め込みチャネル サイズ 512 を使用して、拡散プロセスで最初からトレーニングされた Bert トランスフォーマーを定義します。これは、U-Net のクロス アテンション レイヤーを調整するために使用される埋め込みサイズでもあります。研究者らはまた、異なる設定(8、32、128)での変圧器層の数の変化を調査しました。

最後に、潜在的拡散モデルがあります。下の表 2 は、U-Net のネットワーク アーキテクチャを示しています。研究者らは、画像の知覚的に等価な潜在表現に対して拡散プロセスを実行しました。画像の入力サイズは 64x64x4 に圧縮され、拡散モデルが高速化されました。彼らは 1,000 の拡散ステップと線形ノイズ スケジュールを定義しました。

トレーニングの詳細

研究者らは、画像オートエンコーダをトレーニングするために、4 つの 12GB NVIDIA V100 グラフィック カードを使用し、有効バッチ サイズが 4 サンプル、学習率が 4.5e−6 の Adam オプティマイザーを使用しました。トレーニングの安定性を実現するために、識別器を使用せずに 50,000 回の反復でモデルをウォームアップしました。

潜在拡散モデルのトレーニングには、有効バッチサイズ32、学習率1e−4のAdamオプティマイザーも使用しました。 Paper2Fig100k データセットでモデルをトレーニングする際、8 枚の 80GB NVIDIA A100 グラフィック カードが使用されました。

実験結果

生成プロセス中、研究者らは 200 ステップの DDIM サンプラーを使用し、各モデルに対して 12,000 個のサンプルを生成して、FID、IS、KID、OCR-SIM1 を計算しました。 Steady は、分類子フリー ガイダンス (CFG) を使用して過剰調節をテストします。

以下の表 1 は、さまざまなテキスト エンコーダーの結果を示しています。大きなテキスト エンコーダーが最良の質的結果を生成し、CFG のサイズを大きくすることで条件付き生成を改善できることがわかります。定性的なサンプルは問題を解決するのに十分な品質ではありませんでしたが、FigGen はすでにテキストと画像の関係を把握していました。

下の図 2 は、分類器ガイダンス (CFG) なしでパラメータを調整したときに生成された追加の FigGen サンプルを示しています。研究者たちは、CFG のサイズを大きくすると (定量的にも実証されている)、画像品質が向上することを観察しました。

写真

下の図 3 は、FigGen 生成のさらなる例を示しています。サンプル間の長さのばらつきと、テキスト記述の技術レベルに注意してください。これらは、モデルが理解可能な画像を正しく生成する難易度に密接に影響します。

写真

しかし研究者らは、生成されたチャートが現時点では論文著者に実用的な助けを提供することはできないものの、依然として有望な探究の方向性であることも認めている。

研究の詳細については原著論文を参照してください。

<<:  大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

>>:  Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース

ブログ    
ブログ    

推薦する

ワンクリックで動画をアニメーションに変換できるAIツールが人気。様々な格闘技の動きをスムーズに変換でき、無料でオンラインでプレイできます。

テキスト、画像、ビデオ、すべてをアニメーション化できます。見てください、ほんの少し前まで二人の男が格...

アルゴリズムを超えて: 人工知能と機械学習が組織に与える影響

[[319769]]今日、デジタルサイエンスは企業にとってますます魅力的になっています。しかし、デジ...

...

AIをベースとしたイベントインテリジェント分析システム構築の実践

1. 背景現在、仮想化やクラウドコンピューティングなどの新技術の普及により、企業のデータセンター内の...

...

Nature Review: 機械学習の物理的発見 - 隣にあるもう一つの機会の道

[[437564]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

ロボットが製造業にもたらした変化は実に目覚ましいものがあります。

知能ロボットの誕生は、国内の多くの産業に新たな力をもたらしました。ロボットの導入により、サービス業は...

...

自然言語処理のためのオープンソースツールトップ12

私たちの生活に浸透しているすべてのチャットボット、音声アシスタント、予測テキスト、その他の音声/テキ...

AI: いつも HD ビデオが欲しいなら、ここにあります

Magnific の画像超解像度および強化ツールはまだテスト中ですが、その強力な画像アップスケーリン...

AIと合成生物学の融合における5つの大きな課題:テクノロジー、データ、アルゴリズム、評価、社会学

過去 20 年間で生物学は大きな変化を遂げ、生物システムを設計することが可能になりました。私たちの細...

現在人工知能が適している5つの分野

調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能予算は今後4年間で倍...

杭州妻殺害事件解決、警察AIも貢献

7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...

...