Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が正式にリリースされてから、内部テストの資格を得たネットユーザーは大いに楽しんでいます。

誰かがこれを使って、赤毛の女の子と彼女の赤毛の猫の短いビデオを生成しました。

従来、一貫性の問題により、AI 動画を使用して優れたアニメーション作品を作成することは困難でした。しかし、Pika 1.0 は本当に嬉しい驚きです!

さらに衝撃的なのは、作者が、これは 100% テキストからビデオへの変換機能を使用して生成されたと述べていることです。

半月前、スタンフォード AI ラボの博士が設立したスタートアップ企業 Pika が、最初の製品をリリースした後、瞬く間にトップクラスの製品になったことを今でも覚えています。

3D アニメーション、アニメ、漫画、映画を生成できるだけでなく、スタイル変換や画面拡張などの重要な機能も実現できます。

今では多くのネットユーザーが試してみて、みんながすごいと思っているようです。

同時に、ピカの公式アカウントでは最新の研究結果を発表しました。同社がPika 1.0のリリース以来、技術的な詳細を公開するのは今回が初めてだ。

最新の研究では、テキストから 3D への生成速度を 4.7 倍に高めることができる DreamPropeller 方式が提案されました。

ネットユーザーによってテストされ、すべてが古典的である

次に、ネットユーザーの創造性を見てみましょう。

Runway の Gen-2 と比較すると、Pika 1.0 はキャラクターのアニメーション化において非常に一貫性があります。

映画レベルの効果、アニメ界の「宮崎駿」とも言える

Pika 1.0 はアニメ風の動物を描くのが得意です。さまざまなシーンのこれらのワシを見てください。

宮崎駿の画風がとても強いことがわかります。

マーベル風のフィギュアもあり、動くと本当に「アベンジャーズ」のように見えます。

キラキラ光る湖で遊んだ後、まるで家に帰る道を探しているかのように岸に向かって泳いでいく孤独な白鳥もいます。

アメリカ版『ウォーリー』アニメのSFスタイルも鮮やかに表現されています。

咲きかけの花のつぼみ。

以下の例は、ピカ自身が作ったジャングルのウサギの兵士の映画レベルのエフェクトであり、ヒントが示されています(内部テスト資格を取得したネットユーザーは試すことができます)

1. ジャングルにいるウサギの兵士の映画のような超クローズアップ、3Dレンダリング

2. ジャングルで巨大なニンジンを探索するウサギの兵士の映画のようなバックビューロングショット、3Dレンダリング

ズートピア、ライオンキング、パンダベアのマッシュアップ。

ネットユーザーは映画の予告編を作成し、そのタイトルまで考えた。「ゴジラ キングコング:新帝国」

アインシュタインと彼の実験。

実在の人物が変身、タイタニックはパロディー

「AIレベルの監督」を自称する人物による実演もあり、ただただ驚かされるばかりです。

帽子とダウンジャケットを羽織ると、違和感なく体にぴったりフィットする組み合わせです。

周りのものを松やヒノキに変えたり、自分をシロクマに変身させたりもできる。とってもかわいい。

「タイタニック」のリメイク版もあり、ヒロインのローズがそのままパンダに変身したり、主人公のジャックと手をつなぐスタイルがとても面白いです...

リアルな人物変身、そして二次元妹の変身効果を見てみましょう。

AI魔法の杖、ワンクリック交換

AIの「領域変更」機能を使うことで、背景や被写体の服装までもを一貫したクリスマススタイルに変更できます。

一部のネットユーザーもこの置き換え機能を試し、ビーチのビールを一瞬にしてコーラに変えました。

特定の効果を実現するために、Chase Lean は 3 つのステップのみで完了するチュートリアルを提供しています。

まず、ビデオを生成する必要があります。Midjourney にビーチでコロナビールを飲む写真を生成させ、それをビデオにします。

手順 2: [編集] をクリックし、[ゾーンの変更] をクリックします。

ステップ 3: コカコーラなど、何に置き換えたいかを Pika に伝えます。

広がるキャンバス、並外れた想像力

画像キャンバス拡張機能は、MidjourneyAI などの多くの画像生成ツールに実際に実装されています。

Pika 1.0 は想像力を広げるだけでなく、絵を動かすこともできます。

アテネのパルテノン神殿を見てください。外側に描かれた風景は、この建物の壮大さをさらに際立たせています。

オリーブの木や、さまざまな驚きが隠されている古代の建物を訪れることもできます。

ビデオを録画すると、ピカが背景を直接想像することができます。

以下のユーザーは、テキスト プロンプトを使用して最初のビデオを作成し、キャンバスを数回拡張して 2 番目のビデオを取得しました。

最初のプロンプトは、城壁に立つ美しい王女の3Dアニメーションです。

コンサートレベルのミュージックビデオを制作したネットユーザーもいるが、まだ欠点があることは認めざるを得ない。

Pika 1.0 の背後にあるテクノロジー

これほど多くの驚くべき効果を見ると、おそらく多くの人が Pika 1.0 によって生成される技術的な詳細についてもっと知りたいと思うでしょう。

先ほど、当局はスタンフォード大学とPika Labsが共同で作成した論文を発表しました。

これまで、DreamFusion、ProlificDreamer などのモデルによる分留法によるテキストから 3D への生成の品質は高かったものの、実行時間は 10 時間にも及ぶことがありました。

最新の論文では、研究者らは分留法に基づく加速法「DreamPropeller」を提案しており、これにより既存の方法の速度を4.7倍に高めることができるという。

論文アドレス: https://arxiv.org/pdf/2311.17082.pdf

DreamPropeller の全体的なアーキテクチャを下図に示します。

各反復(k 回)の開始時に、3D 形状(緑色で表示)で構成されるウィンドウが初期化されます。次に、これらの形状は並列計算のために p 個の GPU に分散され、形状の SDS/VSD 勾配が GPU 上で並列に計算されます。

これらの勾配は式(9)の規則に従って収集され、形状を更新するために使用される。

ウィンドウは、その時間ステップでの誤差がしきい値 e 以上になるまで前方にスライドします。しきい値 e は、ウィンドウの平均/中央誤差に基づいて適応的に更新されます。

さらに、VSD の場合、研究者はすべての GPU に LoRA 拡散の個別のコピーを保持し、追加の通信を必要とせずに独立して更新します。

以下は DreamPropeller アプリケーションの代表的な例です。

最新のフレームワークは並列コンピューティングを速度と交換します。DreamGaussian と ProlificDreamer に適用すると、生成の品質を維持しながら速度が 4 倍以上向上します。

DreamPropeller が完成した時点で、ベースライン バージョンの外観と形状は明らかに劣っていました。

以下は他のモデルとの視覚的な比較です。 DreamPropeller アプローチは、より短い実行時間で同じ高品質を実現します。

DreamFusion ギャラリーからの 30 個のキューの定量的評価。実行時間は秒単位です。最新の研究手法により、4倍以上のスピードで競争力のある品質を実現します。

次の動画はトップストリームを生み出す

Pika 1.0 の誕生はインターネット全体に興奮を呼び起こし、次世代のトップビデオ世代になるかもしれません。

誰かが Discord 上の最大の AI 製品と、それらがプラットフォーム上でどれだけ大きいかを数えました。

以下は招待ページのトラフィックでランク付けされた上位 10 の AI アプリケーションです。Midjourney が 1 位、Pika が 2 位です。

上位 10 位のアプリのうち、4 位は画像生成アプリ、3 位は音声/歌生成アプリ、2 位はビデオ生成アプリです。

トラフィックの面では、画像がトップ 10 トラフィックの 74% を占め、次いでビデオが 8%、音声/音楽が 6% でした。

<<:  1人当たり6万ドル:2024年NVIDIA奨学金リストが発表、中国人5名が選出

>>: 

ブログ    

推薦する

人工知能とビッグデータは私たちの生活をこのように変えるだろう

現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...

プログラマのための基本アルゴリズム: 再帰の説明

[[346111]]序文再帰は非常に重要なアルゴリズムの考え方です。フロントエンド開発者であっても、...

世界中でデータ損失を防ぐ先進技術の役割

デジタル時代が進化するにつれ、世界的なデータ損失を防ぐための高度なテクノロジーの役割がますます重要に...

5つの産業用類似アルゴリズム

1. はじめに広告主は通常、ユーザー タグに基づいて広告のターゲット ユーザーを定義します。たとえば...

...

2021年に機械学習を始めるためのガイド

この質問は、機械学習コミュニティのソーシャル メディアでよく聞かれます。機械学習を始めるにはどうすれ...

...

...

ロボットに髪を切らせるという突飛なアイデアを思いついた

一人でいて理髪店に行きたくない場合はどうすればいいでしょうか? YouTube ビデオブロガーの S...

機械学習がデジタルビジネスの未来をどう変えるのか

[[197043]] IDC Futurescapes レポートによると、世界のトップ 2,000 ...

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

最近、Xenonstack は Jagreet Kaur 氏による「人工知能の概要とビッグデータにお...

中国科学院とディープマインドが協力し、ディープラーニングを使って脳が顔を認識する仕組みを解明

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ディープニューラルネットワークをデバッグするにはどのような方法を使用しますか? 4つの簡単な方法をご紹介します

データセットの構築、ニューラル ネットワークのコーディング、モデルのトレーニングに何週間も費やした後...

コンテキストウィンドウ 16,000 トークン、30 億パラメータ、安定性 AI コード大規模モデルがここにあります

最近、Vincent Diffusion アーティファクトをオープンソース化した Stability...

AIとIoTが現代の商取引と小売業を強化

小売業界は大きな変革期を迎えています。消費者の購買方法や交流方法が変わり続ける中、小売業者は新たな商...