DALL·E 3のベンチマーク!メタ最強の文豪エミュの技術レポートを公開

DALL·E 3のベンチマーク!メタ最強の文豪エミュの技術レポートを公開

数日前、OpenAIはDALL·E 3をリリースしたばかりで、ビジュアルイメージは再び新たな段階に上昇しました。一部のネットユーザーからは、Midjourneyはもうおしまいだ、という声も上がっています。

28日のMeta Connectカンファレンスで、ザッカーバーグ氏は独自の人工知能画像生成モデル「Emu(Expressive Media Universe)」も発表した。

Emuの最大の特徴は、シンプルなテキストのみを使用して5秒で画像を生成できることです。

たとえば、「虹の森の妖精猫」などです。

「ハイカーとホッキョクグマ」

「水中宇宙飛行士」。

「花の中の貴婦人」。

「もし恐竜が猫だったら。」

他のグラフィック モデルと比較して、Emu の最も興味深い点は、ワンクリックで絵文字を生成できることです。

誰かとチャットしているとき、適切な絵文字を見つけるために頭を悩ます必要はありません。

たとえば、友達とバックパッキング旅行に行く約束をした場合、旅行に行く準備をしている鮮明な絵文字を送信する必要があります。

「バイクに乗っている幸せなハリネズミ」

気に入ったものを選んで送信してください。

もちろん、いくつかの簡単な単語を入力するだけで、あらゆる種類の絵文字を生成することができます。

まもなく、Emu とセグメンテーション モデル SAM を活用して、誰でも Instagram で画像を編集し、スタイルや背景を変更できるようになります。

スタイルを再変更すると、記述したスタイルに従って想像上の出力イメージを再構築できます。

下図のように、「水彩」と入力すると、写真がすぐに水彩画になります。

あるいは、ザッカーバーグの子供時代の写真を「ロックパンク風」に変えてみるのもいいだろう。

あるいは、ゴールデン レトリバーに「長毛」を与えると、次のようになります。

写真の背景を変更することもできます。

芝生に横たわっている自分の写真を見つけて、「子犬に囲まれて」と入力すると、かわいい子犬の群れがあなたの周りに集まります。

また、家族写真では背景を自由に切り替えることもできます。

Emu はローンチカンファレンスで大ヒットしましたが、実はライブデモンストレーションの前日に、Meta が arXiv で Emu モデルの論文を更新していました。

論文アドレス: https://arxiv.org/abs/2309.15807

この論文では、Meta が Emu のトレーニング方法である品質チューニング (教師あり微調整) を紹介しています。

品質調整は、Web スケールの画像からテキストへの美的配置を使用してテキストから画像へのモデルをトレーニングするときに、非常に美的な画像を生成するという課題に対処します。

品質調整により、事前トレーニング済みモデルは、視覚概念の一般性を維持しながら、視覚的に非常に魅力的な画像を生成することに特化するように効果的に誘導できます。

研究者らは、この手法をピクセル拡散やマスク生成トランスフォーマーなどの他のモデルアーキテクチャにも一般化し、品質調整方法の汎用性を実証しました。

品質調整方法

生成モデルのトレーニングは、知識学習と品質学習の 2 つの段階で構成されます。

知識学習フェーズでは、テキストからほぼあらゆるコンテンツを生成する能力を獲得することが目標であり、通常、何億もの画像とテキストのペアの事前トレーニングが必要です。

品質学習フェーズでは、モデルは高品質で美しい画像を出力するように制限されます。

メタ研究者は、品質を向上させ、美的一貫性を促進するための微調整のプロセスを品質調整と呼んでいます。

品質を調整したEmu生成画像

しかし、品質調整には 3 つの鍵があります。

(1)微調整データセットは、数千枚の画像のみと驚くほど小さい。

(2)データセットの品質が非常に高いため、データの整理を完全に自動化することが難しく、手動での注釈付けが必要となる。

(3)微調整データセットが小さい場合でも、品質調整によって生成された画像の美観が大幅に向上するだけでなく、入力プロンプトへの忠実度によって一般性が測定されるため、一般性が犠牲になることはありません。

品質調整プロセス全体には、次の手順があります。

潜在的普及フレームワーク

研究者らは、1024 x 1024 解像度の画像を出力できる潜在拡散モデルを設計しました。標準的な潜在拡散アーキテクチャ設計に従い、モデルには、画像を潜在埋め込みにエンコードするオートエンコーダー (AE) と、ノイズ除去プロセスを学習する U-Net があります。

研究では、一般的に使用されている 4 チャンネル オートエンコーダ (AE-4) アーキテクチャでは、圧縮率が高いために、構築された画像の詳細が失われることが多いことがわかりました。

この問題は特に小さな物体で顕著になります。

再構成性能をさらに向上させるために、研究者らは敵対的損失を使用し、フーリエ特徴変換を使用して RGB 画像に対して学習不可能な前処理を実行し、入力チャネル次元を 3 (RGB) からより高い次元に増やして、微細構造をより適切に捉えられるようにしました。

さまざまなチャネル サイズに対するオートエンコーダの定性的な結果を下の図に示します。

さらに、研究者らは、モデル容量を向上させるために、チャネルサイズと各ステージのスタックされた残差ブロックの数を増やしました。

さらに、本研究ではテキスト条件としてCLIP ViT-LとT5-XXLのテキスト埋め込みを使用しました。

事前トレーニング

研究者らは、モデルをトレーニングするために 11 億枚の画像からなる大規模な社内事前トレーニング データセットをキュレートし、トレーニング プロセス中にモデルの解像度を徐々に高めていきました。

事前トレーニングの最後に、研究者らはノイズオフセット0.02も使用しました。これは高コントラスト画像の生成に役立ち、生成された画像の美しさを向上させます。

高品質なアライメントデータの構築

数十億枚の画像から始めて、一連の自動フィルターを使用してその数を数億枚にまで減らしました。

これらのフィルターには、不快なコンテンツの削除、美観スコア フィルター、光学式文字認識 (OCR) 単語数フィルター (テキストで覆われすぎている画像を削除する)、CLIP スコア フィルター (画像とテキストの位置がずれているサンプルを削除する) などが含まれますが、これらに限定されません。

次に、画像サイズとアスペクト比によって追加の自動フィルタリングが実行されます。

さらに、さまざまな分野やカテゴリーの画像のバランスをとるために、研究者は視覚概念分類を使用して、特定の分野(肖像画、食べ物、動物、風景、車など)の画像を取得しました。

最後に、独自のシグナル(いいねの数など)に基づく追加の品質フィルタリングにより、データがさらに 200K Human Filtering に削減されます。

次に、データセットは 2 段階で手動でフィルタリングされ、最も美しい画像だけが保持されました。

最初の段階では、一般的な注釈者が画像ライブラリを 20,000 枚の画像に削減するようにトレーニングされます。この段階の主な目的は、リコール率を最適化し、自動フィルタリングを通過する低品質および中品質の画像が除外されるようにすることです。

第 2 段階では、写真の原理に精通したプロの注釈者が雇われ、以下に示すように、美的品質の高い画像を選別しました。

この段階の焦点は、精度を最適化すること、つまり最良の画像のみを選択することです。このデータセットは、高品質写真の基本原則に従っており、一般的にさまざまなスタイルでより美的に満足のいく画像が得られ、人間による評価によって検証されます。

品質調整

視覚的に魅力的な画像は、いくつかの共通の統計を持つすべての画像のサブセットとして考えてください。

研究者らは、64 個のミニバッチ データセットを使用して事前トレーニング済みモデルを微調整しました。

この段階では 0.1 のノイズ オフセットが使用されました。ただし、小さなデータセットで長時間にわたって微調整を行うと、大幅な過剰適合が発生し、視覚概念の一般化可能性が低下する可能性があるため、できるだけ早く微調整を停止することが重要です。

ただし、微調整の反復回数は 5K を超えることはできず、この反復回数の合計は経験に基づいて決定されます。

実験結果

品質調整の効果

研究者らは、品質調整されたEmuモデルと事前トレーニング済みモデルを比較しました。

品質調整前後のランダム定性テストの結果を以下の図に示します。

非フォトリアリスティックな画像にも高い美的魅力があることがわかり、これは研究で提案された仮説を検証しています。つまり、品質調整データセットの特定の写真原則に従うことで、さまざまなスタイルの美的魅力を向上させることができるということです。

量に関して言えば、質を調整した後、Emu は視覚的な魅力とテキストの信頼性の両方で大きな優位性を持っています。

具体的には、Part-tiPrompts と OUl Prompts では、視覚的な魅力については Emu がそれぞれ 82.9% と 91.2%、テキストの忠実度については 36.7% と 47.9% 好まれました。

対照的に、視覚的な魅力については、事前トレーニング済みモデルがそれぞれ 15.4% と 7.9% の割合で好まれたのに対し、テキストの忠実度については、PartiPrompts と OUl Prompts がそれぞれ 21.0% と 18.5% の割合で好まれました。

残りの訴訟は同点となった。異なるドメインとカテゴリをカバーするこれら 2 つの広範な評価データ セットから、視覚概念の一般化可能性は低下しません。

代わりに、改善はさまざまなスタイルに広く適用されます。

SoTAの文脈における視覚的な魅力

Emu によって生成された画像の視覚的な魅力を現在の最先端技術と比較するために、研究者は Emu と SDXLV1.0 を比較しました。

ご覧のとおり、Emu は、様式化された (非フォトリアリスティックな) キューを含め、SDXLv1.0 よりも視覚的に魅力的です。

さらに、Meta は、品質チューニングによって、ピクセル拡散やマスク生成トランスフォーマーなどの他の一般的なアーキテクチャも改善できることを実証しています。

研究者らは、ピクセル拡散とマスク生成トランスフォーマーをゼロから再実装してトレーニングし、2,000 枚の画像で品質調整を行いました。

その後、研究者らは、ランダムにサンプリングされたPartiPromptsの3分の1で、品質調整された2つのモデルを評価しました。

下の図に示すように、品質調整後、両方のアーキテクチャで視覚的な魅力とテキストの忠実度の指標が大幅に向上します。

アブレーション研究

最後に、Meta は微調整データセットに対してアブレーション研究を実行し、視覚的な魅力に焦点を当て、主にデータセット サイズの影響を調査します。

次の表は、100、1000、2000 などのさまざまなサイズのランダムにサンプリングされたサブセットの品質の微調整の結果を示しています。

ご覧のとおり、わずか 100 枚の微調整画像でも、モデルは視覚的に魅力的な画像を生成するように誘導できます。

SDXLと比較すると、微調整後の勝率は24.8%から60%に跳ね上がりました。

<<:  ChatGPT マルチモーダル禁止が解除され、ネットユーザーは楽しんでいます!写真を撮ってコードを生成したり、古文書を一目で認識したり、6つ以上のチャートを要約したりできる

>>:  電荷ベースの原子シミュレーションのための事前学習済み汎用ニューラルネットワーク CHGNet

ブログ    
ブログ    

推薦する

GPT4 はロボットにペンをスムーズに回転させる方法を教えます。

チャット中に数学者テレンス・タオ氏にインスピレーションを与えたGPT-4は、最近、ロボットにペンを回...

AIOps の歴史、用途、そして将来

[[413083]]今日のテクノロジー システムの管理と運用は人間だけでは管理するには複雑すぎるため...

GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

事前のプログラミングやトレーニングなしで GPT-4 を使用してヒューマノイド ロボットを制御すると...

インテリジェント アシスタントが、設計から運用、保守まで、ソフトウェア開発プロセス全体を処理します。

設計、コーディングからテスト、導入、運用・保守まで、ソフトウェア開発の全プロセスをAIに任せることが...

マスク氏も騙された。AIの虚偽の内容が「リアル」すぎる

イスラエルとパレスチナの紛争が深刻化するにつれ、ソーシャルメディアのプラットフォーム上には現地の情景...

...

人類はついに怠惰なAIを生み出してしまった…

強化学習 (RL) の概念を説明する記事は多数ありますが、現実世界で RL を実際に設計して実装する...

...

ホーキング博士:人工知能の脅威は核兵器のようなもので、世界には10の大きな変化が起こるでしょう!

[[215578]]有名な科学者ホーキングは「宇宙の王」として知られています。彼は、これまで人類に...

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました!

編纂者:王睿平校正 | Yan Zheng著作権侵害、プライバシー侵害、度重なる訴訟により、Chat...

人工知能は耳の画像だけで年齢と性別を正確に判別できる

画像処理のためのディープラーニング入門:耳のバイオメトリクスは注目の研究トピックとなっている[1]。...

...

...