DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

椅子に座っているかわいい犬をフォトショップで猫に加工するには、何ステップ必要ですか?

最初のステップは犬の周りを回ることです。 2 番目のステップは、AI に必要なことを伝えることです。マウスをクリックするだけで完了です。

この AI 写真編集マスターは、実は古くからの友人であるDALL E.で、OpenAI で世界中に有名になった人物です。

現在は「2.0 超進化」が完成しました。写真編集の新しい素晴らしいスキルを習得しただけでなく、作品の質も飛躍的に向上しました。

では早速作品を見て感じてみましょう〜

これは、DALL·E 2 が「星雲爆発のコーギーの頭」というプロンプトで作成した絵画です。

このサルバドール・ダリの肖像画には、少しサルバドール・ダリの雰囲気が漂っていませんか？

初代DALL・Eに比べ、画質、芸術性ともに大幅に向上しました。

△「日の出の野原に座るキツネ、モネ風」

それで、研究者たちはどのようにしてDALL·Eの新しい能力を解き放ったのでしょうか?

CLIP+ 拡散モデル

簡単に言えば、DALL·E のこの進化は、より高い解像度とより低いレイテンシーを意味します。

さらに、次の 2 つの新機能が更新されました。

まず、テキスト→画像機能をより細かい粒度で実装します。

つまり、DALL·E 2 は自然言語プロンプトに基づいて写真編集を実行できます。写真編集の過程では、影、反射、テクスチャなどの要素の変化も考慮されます。

例えば、左の「2」アイコンの位置にフラミンゴの水泳用リングを追加すると、水面の反射などの細部もDALL-E2が処理します。

第二に、原作の核となる要素を保持しながら、原作に新しいスタイルを与えることが可能です。

また、生成される画像の品質はDALL·E 1の4倍、つまり256×256から1024×1024に向上しています。

CLIP は、オリジナルの DALL·E 機能実装の基盤です。画像の並べ替えを担当するモデルです。そのゼロショット学習能力は、さまざまな視覚および言語タスクで効果を発揮しています。

拡散モデルの特徴は、多様性を犠牲にして、生成される画像のリアリティを大幅に向上できることです。

そこで、OpenAI の研究者たちは次のような解決策を設計しました。

unCLIPと呼ばれるこのアーキテクチャでは、CLIP テキスト埋め込みは、画像埋め込みを生成する前に、まず自己回帰または拡散に送られます。

この埋め込みは、拡散エンコーダを調整して最終画像を生成するために使用されます。

OpenAIは、DALL Eは画像と画像の説明に使われるテキストとの関係を取得できると説明した。画像は「拡散」プロセスで生成されます。これは、「多数の点」から始まり、画像をどんどん詳細に埋めていくプロセスとして理解できます。

研究者らは、DALL·E 2 を DALL·E や GLIDE などのモデルと比較しました。

実験結果によると、DALL·E 2 の画像生成品質は GLIDE と同等ですが、DALL·E の生成結果はより多様です。

現在、DALL・E 2は一般公開されていませんが、ご興味のある方はオンラインで登録してお申し込みいただけます〜

プロジェクトアドレス:

https://openai.com/dall-e-2/#デモ

<<: ヨーロッパは大規模な国際顔認識システムを構築中

>>: 誇大広告か、効率か？サイバーセキュリティにおける人工知能の実用的応用

2021年世界の最新人工知能技術9選

ブログ

住宅地での顔認識が論争を巻き起こす。所有者には「好意を示すことを拒否する」権利がある

ブログ

人工知能は実際のデータセットを「放棄」するのか?

ブログ

ACM 発表: 2017 年チューリング賞はチップ業界の巨匠 2 名に授与される

ブログ

自動運転スタートアップのAuroraは、テスト用によりリアルな仮想世界を構築するために元ピクサーのベテランを雇用

ブログ

中小企業向けテレマーケティング戦略における人工知能とビッグデータの影響

ブログ

中国は人工知能研究で米国を追い越している

ブログ

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

ブログ

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

CLIP+ 拡散モデル

2021年世界の最新人工知能技術9選

住宅地での顔認識が論争を巻き起こす。所有者には「好意を示すことを拒否する」権利がある

人工知能は実際のデータセットを「放棄」するのか?

ACM 発表: 2017 年チューリング賞はチップ業界の巨匠 2 名に授与される

自動運転スタートアップのAuroraは、テスト用によりリアルな仮想世界を構築するために元ピクサーのベテランを雇用

中小企業向けテレマーケティング戦略における人工知能とビッグデータの影響

中国は人工知能研究で米国を追い越している

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

推薦する

人工知能は「教育革命」を起こしている

スタンフォード大学の人工知能レポート: 今からでも遅くはない

「緊急天使」がロボットを救出するために前進し、事態を収拾した

ニューラルタンジェント、無限幅のニューラルネットワークモデルを作成するための 5 行のコード

「何千人もの人々の何千もの顔」を解読し、ユーザーのポートレートを深く解釈する方法

Big Vsが推奨するAI論文の引用数は倍増するでしょうか？過去5年間の2人のTwitterブロガーのツイートの影響が明らかに

人工知能の時代では、女の子よりも男の子の方が失業する可能性が高いです！

Nvidiaの自動運転チップOrinはどれほど強力か：CEOのHuang RenxunはL2をデモンストレーションするためにメルセデスベンツを発見し、都市のシーンを簡単に処理できる

【ビッグガイがやってくるエピソード7】スマートショッピングガイド対話ロボットの実践

機械に「忘却の呪文」をかける？ Google、初の機械忘却チャレンジを開始

MITの新しいAI研究：セーターが編めなくても問題ない、AIにやらせればいい

ビッグデータと AI を現代の教育とどのように組み合わせることができるでしょうか?

馬化騰と李延紅の対談：基礎技術は巨大産業の変革の基盤

何？ NeRF は BEV の一般化パフォーマンスも向上させます。最初の BEV クロスドメインオープンソースコードと Sim2Real の最初の完成!

URLベースのクライアント監視と分析における機械学習の最適化と実践