携帯電話に写真編集ソフトウェアがインストールされている場合は、その中の「AI ペイント」機能を使用したことがあるかもしれません。通常、写真をアニメスタイルや写真スタイルなどのさまざまなスタイルに変換するためのオプションがいくつか用意されています。しかし今では、ビデオでも同じことが可能になりました。 これらのアニメーション画像は、X プラットフォーム (旧 Twitter) のユーザーである @CoffeeVectors が作成したビデオから取得されています。彼は韓国ガールズグループBLACKPINKの代表作「DDU-DU DDU-DU」のオリジナルMVをAIツールに入力し、すぐにMVのアニメーションバージョンを手に入れた。 完全な効果は次のようになります。 このビデオは、ComfyUI というツールを利用して作成されました。 ComfyUI は、広く採用されている Wenshengtu AI モデル Stable Diffusion 用のオープンソース GUI ベースのワークフロー視覚化エンジンです。複数の安定拡散モデルとそのハイパーネットワークを完全なワークフローに組み合わせて、自動画像生成と最適化を実現できる、ユーザーフレンドリーなグラフィカル インターフェイスを提供します。同時に、コミュニティは ComfyUI の機能をさらに強化するために、さまざまな拡張プラグインも開発しました。 作者の @CoffeeVectors は、この MV を制作する際に、AnimateDiff と ComfyUI のマルチコントロールワークフローを使用したと述べています。前者はアニメスタイルの生成に使用され、後者は生成されたエフェクトの制御に使用されました。さらに重要なことに、彼はこのワークフローで非常に人気のあるアーティファクトである LCM LoRA を導入しました。 「リアルタイムのテキストから画像への処理速度が5~10倍向上。清華LCM/LCM-LoRAが人気に、閲覧回数100万回以上、ダウンロード数20万回以上」という記事では、LCMは清華大学学際情報科学研究所の研究者が構築した新しいモデルであり、テキストから画像への処理と画像から画像への処理の効果が極めて速く、テキスト指示やスケッチ指示に従ってリアルタイムで新しい画像を生成できることが特徴であると紹介しました。 これを基に研究者らは、追加のトレーニングなしで LCM の高速生成機能を他の LoRA モデルに転送できる LCM-LoRA をさらに開発しました。その効果が非常に素晴らしいため、このモデルはHugging Faceプラットフォーム上で20万回以上ダウンロードされており、LCM-LoRAによって生成されたリアルタイムのビデオ効果はXプラットフォーム上のあらゆる場所で見ることができます(下のビデオを参照)。 それで、このアニメバージョンのMVはどうやって作られたんですか? @CoffeeVectors は投稿で彼のアプローチを詳しく説明しました。 @CoffeeVectors は、オリジナルの MV ビデオをダウンロードした後、BLACKPINK の MV 全体を 1 つの .mp4 入力として処理しました。 LCM を使用すると、4090 で 6 ステップでレンダリングでき (以前は 20 ステップ以上必要でした)、VRAM を 10.5 GB しか消費しません。詳細データは次のとおりです。 レンダリング プロセス全体には 81 分かかり、合計 2,467 フレームが生成され、各フレームには約 2 秒かかりました。これには、ビデオから画像シーケンスを抽出し、ControlNet マップを生成する時間は含まれません。 Zoe Depth と Canny ControlNet は、解像度 910 x 512 の SD バージョン 1.5 で使用されました。 出力を改善して、より独特なスタイル、より豊かなディテール、ロトスコープ感の少ないものにするには、個々のフレームを調整する必要があります。ただし、ビデオ全体を一度に完成させると、繰り返し作業できる下書きが作成されます。 入力ビデオについては、12 フレーム/秒という目標を達成するために、1 つおきのフレームを選択しました。 以下は @CoffeeVectors が LCM LoRA を追加しているスクリーンショットです。彼は Checkpoint に組み込まれている VAE を選択しました。 彼は、さまざまなレンズにどれだけ適合するかを確認したかったので、非常に一般的な方法でヒントを書きました。 K サンプラーでは、LCM サンプラーを使用しました。このサンプラーを使用するには、ComfyUI を最新バージョンに更新する必要があることに注意してください。 次の図は、@CoffeeVectors がマルチコントロール ネットのノードをどのように配置するかを示しています。 最後に、@CoffeeVectors はいくつかの関連チュートリアルも推奨しています。
この種の技術的なアプリケーションに興味のある開発者は、すぐに試すことができます。 |
>>: データが「生産手段」となるとき、透かし技術を使ってAIトレーニングデータの著作権を保護する方法をまとめた3つの論文
良いニュースです。お勧めの新しいコースがあります!理論と実践を組み合わせた完全無料の海外で最も人気の...
IDC の最新の世界人工知能支出ガイドによると、アジア太平洋地域 (日本を除く) の AI システム...
[[187947]] 2017 年の最初の 1 ~ 2 か月間、2017 年のテクノロジー トレン...
5月23日、 「実体経済の新たなエンジンを動かす『中核』のダイナミックエネルギー」をテーマにしたイ...
私たちは日常生活の中で、暗号化アルゴリズムによく遭遇します。今日は、これらの暗号化アルゴリズムの P...
現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...
まずは二分木についてお話しましょう。二分木は、各ポイントが 2 つのポイントに接続されているツリー構...
[[226434]]まずは自己紹介をさせてください。私は機械学習の経験が4年以上あり、主な業務内容と...
ソートは、すべての IT エンジニアと開発者にとって不可欠な知識スキルです。コーディング面接に合格す...
企業のデジタル変革は、次々と熱狂の波をもたらしました。国際的な権威ある組織は、今後数年間の企業のデジ...
[[347792]]今日のセキュリティとテクノロジーの分野における大きなトレンドの 1 つは、世界中...
[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...
過去10年間、テクノロジーおよび自動車の専門家は、人間の運転手による積極的な監視や入力なしに公道を走...