この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 テキスト画像データがなくても、AI はテキストを読んだり絵を描いたりすることを学習できるでしょうか? バイトコードの最新の text2image モデルはまさにそれを実現します。 実験データは、その効果が VQGAN-CLIP よりも現実的であり、特にその一般化能力は大量のテキスト画像データでトレーニングされた多くのモデルよりもはるかに優れていることを示しています。 えっと?テキスト注釈なしで、AI は各画像が何を表しているかをどうやって知ることができるのでしょうか? このモデルはどのようにトレーニングされましたか? テキストトレーニングなしでテキストから画像を生成するまず、著者らは、このアプローチを選択した理由は、テキストを含む大量の画像データセットを収集するのはコストがかかりすぎるためだと述べています。 テキスト画像データの必要性がなくなると、テキストを含まない大規模な画像データセットを直接使用できるようになります。 (ImageNet など) を使用して、強力で汎用的な text2image ジェネレーターをトレーニングします。 Byte が実装したモデルはCLIP-GENと呼ばれています。具体的にはどのように動作するのでしょうか? 3つのステップに分かれています。 まず、テキストラベルのない画像の場合、 CLIPの画像エンコーダーを使用して、言語と視覚の統合埋め込み空間における画像埋め込みを抽出します。 次に、画像はVQGANコードブック空間内の一連の離散トークンに変換されます。 つまり、画像が自然言語と同じように表現されるので、後でTransformerを使って処理しやすくなります。 その中で、画像トークナイザーとして機能する VQGAN モデルは、手元にあるラベルなし画像データセットを使用してトレーニングできます。 最後に、自己回帰トランスフォーマーは、トランスフォーマーの統合言語視覚表現からの画像タグを対応する画像にマッピングするようにトレーニングされます。 このようなトレーニングの後、Transformer は、一連のテキスト記述に直面したときに、 CLIP のテキストエンコーダーから抽出されたテキスト埋め込みに基づいて、対応する画像トークンを生成できます。 では、トレーニング プロセスにテキスト データが関与しないテキストから画像へのジェネレーターは効果的でしょうか? パフォーマンスはTsinghua CogViewに匹敵します著者らは、それぞれImageNeデータセットとMSCOCOデータセットでCLIP-GENをトレーニングし、評価しました。 まず、MS-COCO 検証セット内の 6 つのテキスト記述を使用してサンプルを生成します。 多数のテキストと画像のペアでトレーニングされた CLIP-GEN と他のテキスト 2 画像生成モデルとの比較は次のとおりです。 その中でも、 VQGAN-CLIPの結果は比較的非現実的であり、深刻な形状の歪みを伴います。 清華大学のCogView は、DALL-E よりも優れていると主張しています。ここでの実験では、確かに優れた画像構造を生成できますが、テクスチャの詳細が欠けています。 DF-GAN は、豊富な詳細を備えた妥当な画像を生成できますが、局所的なアーティファクトが発生しやすいという欠点もあります。 筆者は、これらの比較モデルと比較して、 CLIP-GEN の画像は詳細度が高く、品質が高いと考えています。たとえば、2 番目のテキスト セットで必要な「水の反射」は適切に解釈されます(ただし、「3 つのぬいぐるみのクマ」という数値概念は完全には理解されません) 。 定量的な実験結果は基本的にこの結論を証明しています。 CLIP-GEN は最高の FID-0 および FID-1 スコアを達成しました。CapS スコア(入力テキストと生成された画像間の意味的類似性を測定) は、CogView を除く他のモデルよりもはるかに高く、CogView は 4% 低くなりました。 さらに、著者らは、CLIP-GEN の一般化能力が優れていると思われることも発見しました。 「空飛ぶペンギン」、「葉巻を持った犬」、「顔と髪のあるレモン」を生成するなど、次のような型破りなテキスト記述のセットでは、CLIP-GEN は基本的にこれらを実現できますが、他のモデルはほとんど理解できません。 著者についてこのモデルの 5 人の作成者は全員 ByteDance 出身です。 第一著者の王子豪氏は北京理工大学で学士号を取得し、カリフォルニア大学バークレー校で博士号を取得。Googleで3年間ソフトウェア開発エンジニアとして勤務し、現在はTikTokで働いている。 責任著者は、南京大学で学士号を取得し、カナダのニューファンドランドメモリアル大学で博士号を取得した Yi Zili 氏です。現在は ByteDance の人工知能専門家(主にマルチモダリティ、超解像度、顔面効果を研究)です。それ以前は、Huawei に勤務していました。 論文の宛先: https://arxiv.org/abs/2203.00386 |
<<: Nvidia の新 GPU: 800 億個のトランジスタを搭載した 4nm プロセス、新しい Hopper アーキテクチャは驚異的
>>: AIは人間の目で世界を見ることを学習し、人間の瞳孔の微妙なズームをシミュレートすることさえできる。
人工知能(AI)は物理学の分野を含む多くの産業に変革をもたらしています。物理学では、AI は複雑な問...
ML Ops は AI 分野における比較的新しい概念であり、「機械学習操作」として説明できます。モデ...
人類の文明の歴史は、私たち自身を超えるための道具を絶えず生み出してきた歴史です。このトラックでは、ほ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
私たちは皆、モノのインターネット (IoT)、人工知能 (AI)、ビッグデータが業界の再編とビジネス...
これらすべての認知機能を 1 つのマシンに統合し、あらゆる一般的なシナリオを処理できる人工知能を汎用...
機械学習は受け入れるのが難しいものです。事件があったらいいな、じゃあ行こうよ〜 Q: 機械学習とは何...
モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...
著者 | 杜家平なぜこのトピックを議論するのですか?このトピックを議論する本質的な理由は、顧客にデー...
光ファイバーを光子のメモリとして使用し、光子メモリを使用してフォールトトレラント量子コンピューティン...
お腹が空いたら、キッチンロボットがミシュランレストランの基準に匹敵するステーキを調理します。運転した...