監督が消えた！ Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ：10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。

最近、国内ではミャオヤカメラがインターネット上で大流行しており、サーバーが羊が屠殺されるかのように何度も過負荷状態になった。

写真をアップロードするだけで、数分で AI 写真のセットが手に入るため、海馬が失業するのではないかと叫ぶ人も多い。

一方、海外ではスタートアップのRunwayが、Gen-2がテキストなし、画像だけの動画を生成できると発表したばかりだ。

写真

最も重要なことは、Web バージョンは無料で使用でき、iOS はまもなくリリースされることです。

写真

つまり、大ヒット映画を作るのに必要なのは映像だけであり、誰でもハリウッドの監督になれるのだ。

すでに一部のネットユーザーは、Gen-2をPSフォト編集、MusicGen、AudioLDMなどの吹き替えツールと組み合わせて「ウォーリー」のリメイク版を制作している。

シーンやキャラクターの写真を数枚用意するだけで、映画のコンテンツが完成します。必要なのは手だけです！

また、山や海を越えて旅する龍の恋、大好きです！

誰かが Midjourney と Gen-2 をミックスしたのですが、ビデオの高品質な質感にはただ驚くばかりです。

写真

ネットユーザーによると、これはまさに地獄の聖王であり、Midjourney 5.2+Gen-2は爆発力が強すぎるとのこと。これは、私がしばらく迷い込むことになる、とても深いウサギの穴です。

次は体験の波を続けて見てみましょう。

楽しくてやめられない！

Gen-2 を一言でまとめると、楽しくてやめられないゲームです!

写真

誰かが、手がかりも何もなく、ただイメージだけを使って、「Fire Journey」の予告編を 4 時間かけて作ったんです!

写真

Gen-2で『ライオンキング』をリメイクするなんて、絶対に想像できない！

写真

アノマリーZ（シーズン1）予告編。

写真

Gen2 には本当に驚きました。動きがとても自然でした。

写真

テキストプロンプト生成と画像プロンプト生成の比較。

写真

一部のネットユーザーは、Gen-2 でより長いビデオを出力する方法を見つけました。

このアプローチでは、Midjourney によって生成された画像を初期画像として使用し、次に Gen-2 によって出力された最後のフレームを次の画像プロンプトとして使用します。

写真

通行人の視点から、通りから建物まで歩いていきます。

写真

手の細部を見てください。少し不完全ではありますが、すでに非常に印象的です。

写真

機械的な効果の波がやって来ます。

写真

透き通った深海水の泡。

写真

Q版アイアンマンは未だに叔父さん気質のままだ。

写真

Stability AI の SDXL は画像を生成し、その後 Gen-2 を使用してビデオを生成します。

写真

AIマルチバースがここにあります。

いくつかの小さなバグ。 Gen2 の奇妙なカメオ出演や手足の欠損が好きな人は他にもいますか?

写真

かわいいジャイアントパンダ。

写真

ステップバイステップのチュートリアル

こんなにかっこいいエフェクトなら、誰もが試してみたくなるはずなので、実際に試してみます。

まず、ウェブサイト https://research.runwayml.com/gen2 から Runway アカウントを登録してログインし、Runway 編集インターフェイスに入ります。

左側の「ビデオの生成」をクリックします。

次に、画面中央の「Gen-2: Text to Video」をクリックして Gen-2 に入ります。

左側の領域に写真をアップロードします。私はMidjourneyによって生成されたロボットの写真を使用しています。

ヒント: 人間の友達から自分の惑星を救いたいと願う優しいロボットの未来的な機械、映画風、デジタルイラスト、様式化、深い被写界深度、高解像度、--ar 16:9 --v 5.2

その後はプロンプトを入力する必要はなく、写真をアップロードした後で「生成」をクリックするだけです。約1分後、4秒間のビデオが生成されました。

写真

写真のロボットが一瞬で動き始めました！

編集者は、最近人気の MiaoYa カメラを使用して、地球のインターネットセレブである Boss Ma の「美化された ID 写真」を生成し、その後、Gen-2 の画像からビデオへのモードを使用して彼のビデオを撮影しました。

写真

女性上司マのダイナミックな効果を見てみましょう

さらに、編集者は使用中に、画像自体にダイナミック効果の要素が含まれている場合、生成されたビデオのダイナミック効果がより顕著になることを発見しました。

写真

元の画像が静止画像の場合、または明らかな動的効果がない場合は、生成されたビデオはほとんど動きません。たとえば、下の画像の猫は動かずにただそこに座っているだけです。

写真

写真の雲だけがダイナミックな効果を持ち、他のシーンは静止したままです。

写真

写真に基づいてビデオを作成する機能はプロンプトワードと組み合わせることができないため、アニメーションのダイナミックな効果は写真に含まれるコンテンツに基づいてのみ生成できます。

開発者の設定は、生成された動的効果が画像コンテンツの物理的な設定に準拠し、さまざまな奇妙な動的効果が生成されないようにする必要があります。

ただし、これにより、ビデオを生成するために使用される元の画像にいくつかの要件が課せられます。明らかに静止画像またはシーンの場合、明らかな動的効果はほとんどありません。

写真

ワンクリックでゴッホと氷の彫刻スタイルを切り替え

Gen-2 で生成されたビデオエフェクトを使用すると、エフェクトトランジションも実現できます。

ビデオのスタイルをゴッホ、モアナ、彫刻などのスタイルに変換できる新しい TokenFlow モデルをお勧めします。

写真

現在、最先端のビデオモデルは、視覚的な品質と生成されたコンテンツに対するユーザー制御の点で、画像モデルにまだ遅れをとっています。

そこで研究者たちは、テキストグラフモデルをテキスト編集ビデオに拡張するというアイデアを思いつき、新しいフレームワーク「TokenFlow」を作成しました。

具体的には、ソースビデオとターゲットテキストプロンプトが与えられると、研究者の方法は、入力ビデオの空間レイアウトと動的効果を維持しながら、ターゲットテキストと一致する高品質のビデオを生成できます。

主なアプローチは、拡散特徴空間の一貫性を強制することによって、編集されたビデオの一貫性を得ることです。

この目標は、モデル内ですぐに利用できるフレーム間の対応に基づいて伝播拡散を明示的に特徴付けることによって達成されます。したがって、新しいフレームワークではトレーニングや微調整は必要なく、市販のテキストから画像への編集方法と直接組み合わせることができるため、半分の労力で 2 倍の結果を達成できます。

写真

同時に、チームは、ビデオの時間的一貫性のレベルがその特徴表現の時間的一貫性と密接に関連していることも観察しました。これは、以下の特徴視覚化図で確認できます。

自然なビデオの特徴は、共有された時間的一貫性ですが、ビデオをフレームごとに編集すると、この一貫性が崩れます。新しい方法により、編集されたビデオが元のビデオと同じ機能の一貫性を持つことが保証されます。

写真

編集プロセスでは、フレーム間で内部拡散機能の一貫性を強制することにより、時間的に一貫した編集を実現できます。

これを実現するために、研究者らは元のビデオ機能間の対応関係を利用して、編集された機能の小さなサブセットをフレーム間で伝播させました。

つまり、入力ビデオ I が与えられると、研究者は各フレームを反転し、ラベルを抽出し、最近傍 (NN) 検索を使用してフレーム間の特徴の対応を抽出します。

各ノイズ除去ステップでは、ノイズの多いビデオ J_t からキーフレームをサンプリングし、拡張アテンションモジュールを使用してそれらを共同編集します。編集されたタグセットはT_baseです。

その後、編集されたマーカーは、元のビデオの特徴との事前計算された対応に基づいて、ビデオ全体に拡散されます。

J_t のノイズを除去するために、研究者は各フレームをネットワークに入力し、生成されたタグを 2 番目のステップで取得したタグに置き換えました。

写真

以下に、その他の定性的な比較をいくつか示します。

RGB 伝播では、オプティカルフローなどの低レベルのキューしか取得できないため、複雑なコンテンツの表示やダイナミクスを持つビデオでは視覚的なアーティファクトが発生します。

一方、Text2LIVE は CLIP に基づいており、拡散モデルの生成事前確率を活用していないため、視覚的な品質の点でより制限があります。

もちろん、このフレームワークにもいくつかの制限があります。

研究者のアプローチは、元のビデオの特徴の対応に基づいてビデオを編集するため、構造的なバイアスを必要とする編集を処理することができません。

写真

素晴らしいアヒルカメラ

昨日、AI生成写真アプリケーション「Miaoya Camera」がインターネット上で人気を博しました。

まず、WeChatでミニプログラム「Miaoya Camera」を検索します。これは、個人の写真を使用して、デジタル（mei）番号（yan）ポイント（zhao）番号（pian）をすばやく生成するアプリケーションです。

入場後、必要に応じて個人写真をアップロードする必要があります。テストに合格すると、突然個人写真20枚のアップロードが求められます。

ストレートの男性である私は、携帯電話を手に入れて以来、おそらく自分の自撮り写真を20枚も保存したことがありません。そのため、テストモデルを務める責任は、当然ながら、インターネットの有名人であるボス・マーに課されました。

10元を費やして1時間以上待った後、馬社長の「Miaoya Camera Digital Clone」がオンラインになりました！

写真

このデジタルアバターを開発者が提供するいくつかのテンプレートと組み合わせて使用することで、次のようなさまざまな背景やスタイルの写真を生成できます。

マスクの10代のかわいいバージョン

民族衣装婦人服馬老板

マスク氏、仕事探し中

ご家族の皆さん、何を待っていますか? 今すぐお試しください。

<<: アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

>>: 5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

ブログ

Sitechiのスマートオペレーションプラットフォームは、スマートシティが4.0時代に入ることを支援します

監督が消えた！ Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ：10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

楽しくてやめられない！

ステップバイステップのチュートリアル

ワンクリックでゴッホと氷の彫刻スタイルを切り替え

素晴らしいアヒルカメラ

Sitechiのスマートオペレーションプラットフォームは、スマートシティが4.0時代に入ることを支援します

Aスターアルゴリズムの実装手順のJavaバージョン

Google版AIペイント検索ボックスで直接プレイ！ Imagen 上に構築されたネットユーザー: DALL-E の代替品がここにあります

最も強力なモザイク除去AIが登場。数分でモザイクのない世界に戻り、ピクセルスタイルの「Minecraft」キャラクターも復元できます。

音声認識データベースが人工知能の中核となる

Baiduのビジネスマルチモーダル理解とAIGCの革新的な実践

ルーティングテーブルとルーター選択アルゴリズム

推薦する

2020年以降のAIとデータのトレンド

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

近年、「人工知能」が私たちの生活に静かに登場している

マイクロソフトはOpenAIの警告を無視し、未熟なBingチャットサービスを開始したと報じられている。

医学と人工知能が出会うとき、将来の医学の5つの主要なトレンドを知っておく必要があります

エア入力方式！浙江大学の最新研究：空中で指を動かすことでスマートウォッチにテキストを入力できる

自動運転における説明可能なAIのレビューと今後の研究の方向性

製造業における人工知能の応用

人工知能の現状と今後の発展はどのようなものでしょうか？

ボルチモア、これまでで最も厳しい顔認識禁止法を制定する可能性

AIに「擬人化技術」を使う？人工知能による認識への道は長く困難である