監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

監督が消えた! Midjourney+Miaoyaカメラ+Gen2の新ゲームプレイ:10元でMuskユニバースを作成し、ワンクリックでビデオを作成します

生成 AI の爆発的な増加により、無限の可能性がもたらされました。

最近、国内ではミャオヤカメラがインターネット上で大流行しており、サーバーが羊が屠殺されるかのように何度も過負荷状態になった。

写真をアップロードするだけで、数分で AI 写真のセットが手に入るため、海馬が失業するのではないかと叫ぶ人も多い。

一方、海外ではスタートアップのRunwayが、Gen-2がテキストなし、画像だけの動画を生成できると発表したばかりだ。

写真

最も重要なことは、Web バージョンは無料で使用でき、iOS はまもなくリリースされることです。

写真

つまり、大ヒット映画を作るのに必要なのは映像だけであり、誰でもハリウッドの監督になれるのだ。

すでに一部のネットユーザーは、Gen-2をPSフォト編集、MusicGen、AudioLDMなどの吹き替えツールと組み合わせて「ウォーリー」のリメイク版を制作している。

シーンやキャラクターの写真を数枚用意するだけで、映画のコンテンツが完成します。必要なのは手だけです!

また、山や海を越えて旅する龍の恋、大好きです!

誰かが Midjourney と Gen-2 をミックスしたのですが、ビデオの高品質な質感にはただ驚くばかりです。

写真

ネットユーザーによると、これはまさに地獄の聖王であり、Midjourney 5.2+Gen-2は爆発力が強すぎるとのこと。これは、私がしばらく迷い込むことになる、とても深いウサギの穴です。

次は体験の波を続けて見てみましょう。

楽しくてやめられない!

Gen-2 を一言でまとめると、楽しくてやめられないゲームです!

写真

誰かが、手がかりも何もなく、ただイメージだけを使って、「Fire Journey」の予告編を 4 時間かけて作ったんです!

写真

Gen-2で『ライオンキング』をリメイクするなんて、絶対に想像できない!

写真

アノマリーZ(シーズン1)予告編。

写真

Gen2 には本当に驚きました。動きがとても自然でした。

写真

テキストプロンプト生成と画像プロンプト生成の比較。

写真

一部のネットユーザーは、Gen-2 でより長いビデオを出力する方法を見つけました。

このアプローチでは、Midjourney によって生成された画像を初期画像として使用し、次に Gen-2 によって出力された最後のフレームを次の画像プロンプトとして使用します。

写真

通行人の視点から、通りから建物まで歩いていきます。

写真

手の細部を見てください。少し不完全ではありますが、すでに非常に印象的です。

写真

機械的な効果の波がやって来ます。

写真

写真

透き通った深海水の泡。

写真

Q版アイアンマンは未だに叔父さん気質のままだ。

写真

Stability AI の SDXL は画像を生成し、その後 Gen-2 を使用してビデオを生成します。

写真

AIマルチバースがここにあります。

いくつかの小さなバグ。 Gen2 の奇妙なカメオ出演や手足の欠損が好きな人は他にもいますか?

写真

かわいいジャイアントパンダ。

写真

ステップバイステップのチュートリアル

こんなにかっこいいエフェクトなら、誰もが試してみたくなるはずなので、実際に試してみます。

まず、ウェブサイト https://research.runwayml.com/gen2 から Runway アカウントを登録してログインし、Runway 編集インターフェイスに入ります。

左側の「ビデオの生成」をクリックします。

次に、画面中央の「Gen-2: Text to Video」をクリックして Gen-2 に入ります。

左側の領域に写真をアップロードします。私はMidjourneyによって生成されたロボットの写真を使用しています。

ヒント: 人間の友達から自分の惑星を救いたいと願う優しいロボットの未来的な機械、映画風、デジタルイラスト、様式化、深い被写界深度、高解像度、--ar 16:9 --v 5.2

その後はプロンプトを入力する必要はなく、写真をアップロードした後で「生成」をクリックするだけです。約1分後、4秒間のビデオが生成されました。

写真

写真のロボットが一瞬で動き始めました!

編集者は、最近人気の MiaoYa カメラを使用して、地球のインターネット セレブである Boss Ma の「美化された ID 写真」を生成し、その後、Gen-2 の画像からビデオへのモードを使用して彼のビデオを撮影しました。

写真

女性上司マのダイナミックな効果を見てみましょう

さらに、編集者は使用中に、画像自体にダイナミック効果の要素が含まれている場合、生成されたビデオのダイナミック効果がより顕著になることを発見しました。

写真

元の画像が静止画像の場合、または明らかな動的効果がない場合は、生成されたビデオはほとんど動きません。たとえば、下の画像の猫は動かずにただそこに座っているだけです。

写真

写真の雲だけがダイナミックな効果を持ち、他のシーンは静止したままです。

写真

写真に基づいてビデオを作成する機能はプロンプトワードと組み合わせることができないため、アニメーションのダイナミックな効果は写真に含まれるコンテンツに基づいてのみ生成できます。

開発者の設定は、生成された動的効果が画像コンテンツの物理的な設定に準拠し、さまざまな奇妙な動的効果が生成されないようにする必要があります。

ただし、これにより、ビデオを生成するために使用される元の画像にいくつかの要件が課せられます。明らかに静止画像またはシーンの場合、明らかな動的効果はほとんどありません。

写真

ワンクリックでゴッホと氷の彫刻スタイルを切り替え

Gen-2 で生成されたビデオ エフェクトを使用すると、エフェクト トランジションも実現できます。

ビデオのスタイルをゴッホ、モアナ、彫刻などのスタイルに変換できる新しい TokenFlow モデルをお勧めします。

写真

現在、最先端のビデオ モデルは、視覚的な品質と生成されたコンテンツに対するユーザー制御の点で、画像モデルにまだ遅れをとっています。

そこで研究者たちは、テキストグラフモデルをテキスト編集ビデオに拡張するというアイデアを思いつき、新しいフレームワーク「TokenFlow」を作成しました。

具体的には、ソース ビデオとターゲット テキスト プロンプトが与えられると、研究者の方法は、入力ビデオの空間レイアウトと動的効果を維持しながら、ターゲット テキストと一致する高品質のビデオを生成できます。

主なアプローチは、拡散特徴空間の一貫性を強制することによって、編集されたビデオの一貫性を得ることです。

この目標は、モデル内ですぐに利用できるフレーム間の対応に基づいて伝播拡散を明示的に特徴付けることによって達成されます。したがって、新しいフレームワークではトレーニングや微調整は必要なく、市販のテキストから画像への編集方法と直接組み合わせることができるため、半分の労力で 2 倍の結果を達成できます。

写真

同時に、チームは、ビデオの時間的一貫性のレベルがその特徴表現の時間的一貫性と密接に関連していることも観察しました。これは、以下の特徴視覚化図で確認できます。

自然なビデオの特徴は、共有された時間的一貫性ですが、ビデオをフレームごとに編集すると、この一貫性が崩れます。新しい方法により、編集されたビデオが元のビデオと同じ機能の一貫性を持つことが保証されます。

写真

編集プロセスでは、フレーム間で内部拡散機能の一貫性を強制することにより、時間的に一貫した編集を実現できます。

これを実現するために、研究者らは元のビデオ機能間の対応関係を利用して、編集された機能の小さなサブセットをフレーム間で伝播させました。

つまり、入力ビデオ I が与えられると、研究者は各フレームを反転し、ラベルを抽出し、最近傍 (NN) 検索を使用してフレーム間の特徴の対応を抽出します。

各ノイズ除去ステップでは、ノイズの多いビデオ J_t からキー フレームをサンプリングし、拡張アテンション モジュールを使用してそれらを共同編集します。編集されたタグセットはT_baseです。

その後、編集されたマーカーは、元のビデオの特徴との事前計算された対応に基づいて、ビデオ全体に拡散されます。

J_t のノイズを除去するために、研究者は各フレームをネットワークに入力し、生成されたタグを 2 番目のステップで取得したタグに置き換えました。

写真

以下に、その他の定性的な比較をいくつか示します。

RGB 伝播では、オプティカルフローなどの低レベルのキューしか取得できないため、複雑なコンテンツの表示やダイナミクスを持つビデオでは視覚的なアーティファクトが発生します。

一方、Text2LIVE は CLIP に基づいており、拡散モデルの生成事前確率を活用していないため、視覚的な品質の点でより制限があります。

もちろん、このフレームワークにもいくつかの制限があります。

研究者のアプローチは、元のビデオの特徴の対応に基づいてビデオを編集するため、構造的なバイアスを必要とする編集を処理することができません。

写真

素晴らしいアヒルカメラ

昨日、AI生成写真アプリケーション「Miaoya Camera」がインターネット上で人気を博しました。

まず、WeChatでミニプログラム「Miaoya Camera」を検索します。これは、個人の写真を使用して、デジタル(mei)番号(yan)ポイント(zhao)番号(pian)をすばやく生成するアプリケーションです。

入場後、必要に応じて個人写真をアップロードする必要があります。テストに合格すると、突然個人写真20枚のアップロードが求められます。

ストレートの男性である私は、携帯電話を手に入れて以来、おそらく自分の自撮り写真を20枚も保存したことがありません。そのため、テストモデルを務める責任は、当然ながら、インターネットの有名人であるボス・マーに課されました。

10元を費やして1時間以上待った後、馬社長の「Miaoya Camera Digital Clone」がオンラインになりました!

写真

このデジタル アバターを開発者が提供するいくつかのテンプレートと組み合わせて使用​​することで、次のようなさまざまな背景やスタイルの写真を生成できます。

マスクの10代のかわいいバージョン

民族衣装 婦人服 馬老板

マスク氏、仕事探し中

ご家族の皆さん、何を待っていますか? 今すぐお試しください。

<<:  アメリカ合衆国憲法と聖書はどちらも AI によって生成されたのでしょうか? AI検出器は信頼性が低く、人間のデータが限られているためAI開発は制限される

>>:  5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

ブログ    
ブログ    

推薦する

自然言語処理が人工知能の中核である理由

コンピュータが人間を騙して自分は人間だと信じ込ませることができるなら、そのコンピュータは知的であると...

...

深層強化学習とは:次世代のAIと深層学習

[51CTO.com クイック翻訳] 強化学習は自律的な意思決定を実現するのに非常に適しています。対...

滴滴出行はオペレーションズリサーチ分野の最高賞であるワグナー優秀実践賞を受賞した初の中国企業となる。

2019年INFORMS年次総会が米国時間10月20日から23日までシアトルで開催されました。同総...

心配なことはまだ起こりました。プログラマーは、自分が書いた AI アルゴリズムが原因で解雇されたのです。

[[419510]]最近、ロシア人プログラマーが元雇用主を相手取り訴訟を起こし、職務の復職と精神的...

...

機械知能に取って代わられない5つのスキル

「機械知能が人間のために行っている 5 つのこと」という記事では、機械が常に新しい奇跡を生み出してい...

...

Baidu Brain CVサービスでは、100~1000元のクーポンを提供しています。

覚えていますか? 「小都」はかつて「The Brain」の舞台でエネルギー溢れる出場者たちと競い合い...

Face-api.jsフレームワークに基づいて、顔認識はフロントエンドで完了します

[[271667]]この記事では、ブラウザ上で動作する顔認識フレームワーク、Face-api.js ...

...

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

医薬品開発の近代化への道:AI技術の適用から得られた経験と教訓

医薬品の発見と開発の加速は大きなビジネスであり、業界の運営コストは高いため、急速に成長しているこの業...

2024 年の産業用ロボットのトップ 10 のトレンドとイノベーション

産業用ロボットの世界では、イノベーションのペースが加速し続けており、毎年、製造、自動化、作業の方法を...