OpenAI DALL·E 3が登場、ChatGPTと統合、生画像の効果は素晴らしい

OpenAI DALL·E 3が登場、ChatGPTと統合、生画像の効果は素晴らしい

ついにOpenAIの画像処理AIツール「DALL-Eシリーズ」が最新バージョン「DALL・E 3」に到達した。前バージョンの「DALL・E 2」は昨年4月に発売された。

OpenAIは「DALL・E 3は以前のシステムよりもニュアンスや詳細を理解し、ユーザーが自分のアイデアを高精度の画像に変換しやすくなった」と述べた。

本当にOpenAIが言った通りでしょうか?百聞は一見にしかず。以下はDALL・E 3とDALL・E 2で生成された効果の比較です。同じプロンプト「バスケットボール選手がダンクシュートを決める油絵と爆発する星雲」に対して、DALL・E 2の左の画像は、ディテール、鮮明度、明るさなどの点でDALL・E 3の右の画像よりも明らかに劣っています。

爆発的な生画像エフェクトに加えて、DALL・E 3 の最大の特徴は ChatGPT との統合です。ChatGPT 上にネイティブに構築されており、ChatGPT を使用してプロンプトを作成、拡張、最適化します。こうすることで、ユーザーはプロンプトに多くの時間を費やす必要がなくなります。

具体的には、ChatGPT を使用すると、ユーザーは DALL·E 3 をガイドするための詳細なプロンプトを苦労して考え出す必要がなくなります。アイデアが入力されると、ChatGPT は DALL・E 3 に合わせてカスタマイズされた詳細なプロンプトを自動的に生成します。ユーザーは独自のプロンプトを使用することもできます。

ChatGPT を統合した後の効果は何ですか? OpenAIのCEO、サム・アルトマン氏は、完全な「長編映画」とも言えるDALL E 3の連続生成結果を興奮気味に実演した。

スーパーサンフラワーヘッジホッグはどんな見た目ですか?

このハリネズミは「ラリー」と呼ばれており、この種類のハリネズミは他にもたくさんいます。

ラリーの両親はこんな感じです。

ラリーはとても親切です。


ラリーはついに安らかに眠りについた。

ChatGPT の統合は DALL・E 3 の唯一の新機能ではありません。プロンプトの内容をもっと正確に反映する、より高品質の画像も生成します。 DALL·E はテキストプロンプトを画像に変換します。 DALL・E 2でも、特定の文言が見落とされ、エラーが発生することがよくあります。しかし、OpenAIの研究者らは、最新バージョンでは文脈をより良く理解し、より長いプロンプトをより適切に処理できると述べている。また、テキストや人間の手など、従来は画像生成モデルが問題となっていたコンテンツも、より適切に処理できるようになります。

プロンプト: このイラストは、荒れ狂う波の真ん中の台座の上に立っている半透明のガラスでできた人間の心臓を描いています。一筋の太陽の光が雲を突き抜け、心を照らし、その内側にある小さな宇宙を明らかにします。地平線には、「あなたの中に宇宙を見つけてください」という目を引く一行の言葉が刻まれています。

プロンプトのすべての詳細が上の画像に表示されていることがわかります。半透明の質感、画面下部にうねる波、太陽の光と厚い雲、ハートの宇宙的な情景、そして多くの画像生成モデルを困惑させたテキスト表示、DALL・E 3はこれらの課題を無事にクリアしました。

果たして、DALL・E 3はミッドジャーニーの「キラー」になれるのか? Twitterユーザーの@MattGarciaEthは、2つの画像が生成した画像を数多く比較しています。どちらが良いと思いますか?

プロンプトは「セラピストの椅子に座ったアボカドが『心がとても空っぽな気がする』と言っている。真ん中に種ほどの穴が開いている。セラピスト、スプーン、走り書きのメモ。」です。

プロンプトは「このイラストは、嵐の波の真ん中の台座の上に立っている半透明のガラスでできた人間の心臓を描いています。一筋の太陽の光が雲を突き抜け、心臓を照らし、その中にある小宇宙を明らかにしています。目を引く一行の「あなたの中に宇宙を見つけてください」という言葉が地平線に刻まれています。」です。

テーマは「中年のアジア人女性の黒髪に銀色の縞模様が入り、壊れた磁器の破片に断片的に複雑に埋め込まれているように見える。磁器は飛び散った絵の具の模様でキラキラと輝き、光沢のある青、緑、オレンジ、赤が調和して絡み合い、動きと静寂が並置されたシュールなダンスを描いている。彼女の肌は磁器と同じ明るい色で、彼女の表情に神秘的な雰囲気を加えている。」です。(Twitter @nickfloats、上の画像はDALL・E 3で生成された結果、下の画像はMidjourneyで生成された結果)

現在、DALL・E 3は研究プレビュー版です。 OpenAIは、DALL・E 3のリリースを段階的に行う予定で、まず10月にChatGPT PlusおよびChatGPT Enterpriseのユーザー向けにリリースし、その後秋に研究室とそのAPIサービス向けにリリースする予定です。しかし同社は、無料の一般向けバージョンをいつリリースする予定か、あるいはリリースする予定があるかどうかについては明らかにしなかった。

DALL・Eシリーズ研究

ここでは、OpenAI のテキストから画像への生成に関する研究である DALL・E シリーズについて簡単に紹介します。これにより、読者は DALL・E シリーズの背後にあるテクノロジーを理解することもできます。

2021年1月6日、OpenAIブログは、テキストと画像を結び付ける2つのニューラルネットワーク、DALL.EとCLIPをリリースしました。 DALL・Eはテキストに基づいて直接画像を生成でき、CLIPは画像とテキストのカテゴリを一致させることができます。これら 2 つの研究の発表はコミュニティから大きな注目を集めました。

ブログによると、DALL・Eは自然言語で表現された膨大な概念を適切な画像に変換できるとのこと。GPT-3の120億パラメータ版ともいえるもので、テキスト記述を元に画像を生成することもできるとのこと。

DALL・Eの例。 「アボカド型の椅子」という文章を与えると、さまざまな形の緑色のアボカド型の椅子の画像が得られます。

2か月後、DALL・Eの論文とコードが公開されました。

  • プロジェクトアドレス: https://github.com/openai/DALL-E
  • 論文アドレス: https://arxiv.org/abs/2102.12092

2022年4月7日頃、DALL・Eはアップグレード版となるDALL・E 2を発表しました。 DALL·E と比較すると、DALL·E 2 はユーザー記述画像を生成する際の解像度が高く、待ち時間も短くなります。さらに、新バージョンでは、オリジナル画像の編集などの新機能もいくつか追加されています。

OpenAIはDALL・E 2の研究論文「CLIP Latentsによる階層的テキスト条件付き画像生成」も公開した。

論文アドレス: https://cdn.openai.com/papers/dall-e-2.pdf

残念ながら。 OpenAIは、これまでのようにDALL・E 3の技術的な詳細を公開しない可能性があります。

セキュリティと著作権の問題に注意する

OpenAIは、「有害な」画像の作成を防ぐための強力な安全対策の開発を含め、DALL・E 3に多大な労力を費やしたと述べた。 OpenAIは、外部の「レッドチーム」(セキュリティをテストするために故意にシステムを破壊しようとするグループ)のメンバーと協力し、入力分類器(明示的または総当たり的なプロンプトを回避するために特定の単語を無視するように言語モデルを教える方法)に依存したと述べた。 DALL・E 3 では、著名人の画像を生成することもできません。

オープンAIの研究者サンディニ・アガルワル氏は、DALL・E 3の安全対策に「高い信頼」を寄せており、モデルは継続的に改善されていると述べた。 OpenAIはまた、DALL.E 3は現存する芸術家のスタイルで画像を生成することを拒否しており、これはDALL.E 2とは異なると電子メールで述べた。

アーティストたちは、DALL・Eの競合企業であるStability AIとMidjourney、そしてアートサイトDeviantArtを、著作権で保護された作品がテキストから画像への変換モデルのトレーニングに使用されたとして訴えた。おそらく訴訟を避けるため、OpenAI はアーティストがテキストから画像に変換する AI モデルの将来のバージョンから自分の作品を削除し、トレーニングに使用しないことを許可するだろう。クリエイターは、著作権を所有する画像を提出し、サイト上のフォームに記入して削除をリクエストすることができます。

この方法により、DALL·E の将来のバージョンでは、アーティストのイメージやスタイルに類似した結果をマスクできるようになります。

<<: 

>>:  アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Google が AI で利益を上げている秘密は何でしょうか?

[[441488]]ビジネスプロセスはインテリジェントではないAI プロジェクトから価値を引き出す...

人工知能の時代に人権と民主主義をどう守るか

人工知能 (AI) システムは近年急速に普及しており、特に 2023 年には大規模言語モデル (LL...

...

DrivingDiffusion: 最初のサラウンドワールド モデル: BEV データとシミュレーションの新しいアイデア!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

モザイクも安全ではないのですか? 「ブロックバスター」のモザイクはAIによってワンクリックで削除可能

知っていましたか?モザイクはもう安全ではありません!こんにちは、友人の皆さん。私は Jiguo.co...

ハルビン工業大学人工知能研究所が設立され、4つのレベルと7つの方向でAIの発展をリードしています

5月5日、ハルビン工業大学(HIT)人工知能研究所の除幕式と「知能・未来創造」ハイエンド人工知能フォ...

人工知能市場の需要と応用

「人工知能」は3年連続で政府活動報告に盛り込まれており、2019年にはビッグデータ、人工知能などの研...

アイデンティティ管理における人工知能の脅威

Cyber​​Ark の 2023 年アイデンティティ セキュリティ脅威ランドスケープ レポートでは...

コレクション | データアナリストがよく使用する機械学習アルゴリズム 10 個!

機械学習の分野では、「世の中にただ飯はない」という格言があります。簡単に言えば、あらゆる問題に対して...

顔認識にもマスターキーはあるのでしょうか?

顔認識は、携帯電話のロック解除、住宅コミュニティへの出入り、消費者の支払い、ビジネス取引の処理など、...

人工知能時代の機械の未来

この記事では、人間が持っているが機械がまだ獲得していないいくつかの必要な能力を列挙し、現在の開発動向...

マッキンゼーの中国人工知能レポートは3つの大きな課題に直面している

BAT の幹部は、先日終了した IT リーダーシップ サミットで人工知能に焦点を当てました。ロビン・...

成功するAIチームの特徴

今日の時代では、人々は目標を達成するために人工知能 (AI) にますます依存するようになっています。...