Midjourney はテキストを生成できます。 V6バージョンの5つの主要なアップグレードがネットユーザーを驚かせる

Midjourney はテキストを生成できます。 V6バージョンの5つの主要なアップグレードがネットユーザーを驚かせる

Midjourney がメジャーアップデートされ、バージョン V6 がリリースされました!

アップデート後の最大のハイライトは、画像がよりリアルになり、細部がより繊細になったことです。

以前の世代に比べてより直感的になりました。

たとえば、トマトと一緒に煮込んだ牛の胸肉の料理を例に挙げてみましょう。右の写真は、より自然で食欲をそそるだけでなく、木製のスプーンの細部まで見逃されていません(左 V5.2、右 V6) :

V6の光と影のディテールが最大限に生かされたキャラクターの描写を見てみましょう。対照的に、V5.2 は同じレベルではありません(上位 V6、下位 V5.2)

風景画像の処理では、どちらがよりリアルで自然であるかが一目でわかります(左が V5.2、右が V6)

さらに、新バージョンのもう 1 つのハイライトは、単純なテキストを処理できることです。描画するテキストに「引用符」を追加するだけです (「Hello World!」など)。

ついに文字化けしなくなりました!

創設者のデイビッド・ホルツ氏は Discord の投稿で V6 のリリースを発表し、V6 はチームがゼロからトレーニングした 3 番目のモデルであり、開発プロセスは 9 か月続いたと述べました。

要約すると、V6 には5 つの主要なアップグレードがあります。

  • より正確でより長いプロンプト応答
  • 一貫性とモデル知識の向上
  • 画像生成とリミックスが最適化されました
  • 基本的なテキスト描画機能を追加
  • 「繊細」モードと「創造的」モードを備えた強化されたアップスケール機能、最大2倍の解像度

さらに、David Holz氏は、V6は現在「アルファテスト」段階にあり、いつでも変更される可能性があり、後でフルバージョンにアップグレードされる予定であると述べました。

これは、今後数週間で、V6 の速度、画像品質、一貫性、迅速な応答性、テキストの正確性がさらに向上することを意味します。

現在、V6 は V5 よりも遅く、高価です(イメージあたり約 1gpu/分、アップスケールあたり約 2gpu/分)が、V6 は昨日更新され、速度が 2.7 倍に向上しました。

V6 の登場により、ネットユーザーには新しい遊び方が与えられ、さまざまなテスト比較が非常に人気を博しています。

しかし、V6を上手にプレイしたいのであれば、これまでのヒント戦略を使うだけでは不十分かもしれません。

David Holz 氏は、「V6 のプロンプトは V5 のものとは非常に異なるため、プロンプトの出し方を再度学習する必要があります」と明言しました。

効果: 実写

まずはネットユーザーのテスト結果を見てみましょう。

Midjourney V5.2 (左)と V6 (右)に、「遅くまで営業中」というライトサインでマークする必要があるバーを描画するように依頼します。V6 は問題なく描画します。

アップデートされたアップスケールをもう一度体験してみましょう。通常画像は次のようになります。

2 つの異なるモードがあります: 微妙(上)とクリエイティブ(下) 。あなたの家族はどちらのモードが好きですか?


クリエイティブは鏡の細部にまで気を配りました。

DALL・E 3やAdobe Fireflyなど他のAI描画ツールとの比較もあります。

Midjourney V6 は、さまざまなスタイルの画像を生成する際に優れたパフォーマンスを発揮します。


本物と間違えそうなタイプです。


V6はタバコテストにも合格しました。煙が本物であるだけでなく、針の年齢も鮮明に描写されています。

しかし、前述のように、Midjourney V6 アップデートではエフェクトだけでなくプロンプトの単語も変更されます。

幸いなことに、David Holz 氏は次のようなヒントやコツをいくつか教えてくれました。

  • 受賞歴のある、フォトリアリスティックな、4k、8k などの無関係な言葉の使用は避けてください。
  • 自分が何を望んでいるのかを明確にしてください。明確に表現すれば、モデルはそれをよりよく理解します。
  • より写真的で、ニュートラルで、直接的な効果が必要な場合は、デフォルトの --style raw を使用できます。
  • --stylize の値を低くすると(デフォルトは 100)、ツールチップの理解度が向上しますが、値を大きくすると(最大 1000)、見た目が良くなる可能性があります。

簡単に試してみましょう。

Midjourney V6 の開封

V6 を呼び出す方法は 3 つあります。Midjourney Discord サーバーでスラッシュ コマンド「/settings」を入力するか、Midjourney ボットへのダイレクト メッセージ(DM)に入力して上部のドロップダウン メニューで V6 を選択するか、プロンプトの後に手動で「—v 6.0」と入力するかを選択できます。

私たちはミッドジャーニーに、大雪と「明けましておめでとう」と書かれた看板のある大晦日の光景を描写してもらいました。

大雪が降る大晦日の情景を描き、「あけましておめでとうございます」の文字を書いた看板も添えてください。

言うまでもないですが、感触は良いのですが、「言葉」の出来栄えがまだ不安定です。

プロンプトの単語はまったく同じですが、V5.2 の全体的なトーンはより温かみのあるものになっていますが、V6 はまだかなり先進的に見えます。

次に、任意の画像をクリックして拡大します。

「微妙」と「クリエイティブ」という 2 つの新しいモードが表示されます。

以下はクリエイティブの結果です。ご家族の感想はいかがでしょうか?

<<:  Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

>>: 

ブログ    
ブログ    

推薦する

...

2020 年に AI テクノロジーはどのような変化をもたらすでしょうか?

近年、人工知能は頻繁に話題になっていますが、まだ真の実現には程遠い状況です。人工知能技術の開発におけ...

チューリング賞受賞者でAAAI次期会長がAIの今後10年を展望

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

中国科学院のチームは、最初のLLMモデル圧縮レビューを発表しました。剪定、知識蒸留、量子化技術の詳細な議論です。

最近、大規模言語モデル (LLM) はさまざまなタスクで優れたパフォーマンスを示しています。しかし、...

小売業界におけるRPA活用事例11選

世界各国がインダストリー4.0の時代を迎える中、多くの業界団体がプロセス自動化の重要性を認識し始め、...

IDC: 欧州の人工知能への支出は2022年に220億ドルに達する

インターナショナル・データ・コーポレーション(IDC)の新しい世界人工知能支出ガイドでは、ヨーロッパ...

5Gのサポートにより、AIの顔を変えること以外に人工知能は何ができるのでしょうか?

近年、AIによる顔を変える技術がネットユーザーの間で大流行し、この人工知能の新興技術を一般人の生活に...

ニューラルネットワークの問題を解決するための新しいアイデア: OpenAI は線形ネットワークを使用して非線形問題を計算します

[[205570]]深層線形ネットワーク (浮動小数点演算を使用して実装) は実際には線形ではなく、...

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

6月25日、ジーナ・ライモンド米国商務長官は、国立標準技術研究所(NIST)が人工知能(AI)に関...

2021年、ドローン配送は高速であるだけでなく、安定している必要がある

中国国家郵政局が2020年10月に郵便業界標準「ドローン速達サービス仕様」について通知したことを覚え...

人工知能は将来どのように発展するのでしょうか?

20 世紀初頭から、ロボットが人間のように考え始めることができるかどうかについて、人々は疑問を持ち...

...

TensorFlow.js と Python を使用してブラウザで機械学習モデルを構築する

概要TensorFlow.js (deeplearn.js) を使用すると、複雑なインストール手順な...

AlibabaのBladeDISCディープラーニングコンパイラが正式にオープンソース化

ガイドディープラーニングの継続的な発展により、AI モデルの構造は急速に進化しており、基盤となるコン...