Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が正式にリリースされてから、内部テストの資格を得たネットユーザーは大いに楽しんでいます。

誰かがこれを使って、赤毛の女の子と彼女の赤毛の猫の短いビデオを生成しました。

従来、一貫性の問題により、AI 動画を使用して優れたアニメーション作品を作成することは困難でした。しかし、Pika 1.0 は本当に嬉しい驚きです!

さらに衝撃的なのは、作者が、これは 100% テキストからビデオへの変換機能を使用して生成されたと述べていることです。

半月前、スタンフォード AI ラボの博士が設立したスタートアップ企業 Pika が、最初の製品をリリースした後、瞬く間にトップクラスの製品になったことを今でも覚えています。

3D アニメーション、アニメ、漫画、映画を生成できるだけでなく、スタイル変換や画面拡張などの重要な機能も実現できます。

今では多くのネットユーザーが試してみて、みんながすごいと思っているようです。

同時に、ピカの公式アカウントでは最新の研究結果を発表しました。同社がPika 1.0のリリース以来、技術的な詳細を公開するのは今回が初めてだ。

最新の研究では、テキストから 3D への生成速度を 4.7 倍に高めることができる DreamPropeller 方式が提案されました。

ネットユーザーによってテストされ、すべてが古典的である

次に、ネットユーザーの創造性を見てみましょう。

Runway の Gen-2 と比較すると、Pika 1.0 はキャラクターのアニメーション化において非常に一貫性があります。

映画レベルの効果、アニメ界の「宮崎駿」とも言える

Pika 1.0 はアニメ風の動物を描くのが得意です。さまざまなシーンのこれらのワシを見てください。

宮崎駿の画風がとても強いことがわかります。

マーベル風のフィギュアもあり、動くと本当に「アベンジャーズ」のように見えます。

キラキラ光る湖で遊んだ後、まるで家に帰る道を探しているかのように岸に向かって泳いでいく孤独な白鳥もいます。

アメリカ版『ウォーリー』アニメのSFスタイルも鮮やかに表現されています。

咲きかけの花のつぼみ。

以下の例は、ピカ自身が作ったジャングルのウサギの兵士の映画レベルのエフェクトであり、ヒントが示されています(内部テスト資格を取得したネットユーザーは試すことができます)

1. ジャングルにいるウサギの兵士の映画のような超クローズアップ、3Dレンダリング

2. ジャングルで巨大なニンジンを探索するウサギの兵士の映画のようなバックビューロングショット、3Dレンダリング

ズートピア、ライオンキング、パンダベアのマッシュアップ。

ネットユーザーは映画の予告編を作成し、そのタイトルまで考えた。「ゴジラ キングコング:新帝国」

アインシュタインと彼の実験。

実在の人物が変身、タイタニックはパロディー

「AIレベルの監督」を自称する人物による実演もあり、ただただ驚かされるばかりです。

帽子とダウンジャケットを羽織ると、違和感なく体にぴったりフィットする組み合わせです。

周りのものを松やヒノキに変えたり、自分をシロクマに変身させたりもできる。とってもかわいい。

「タイタニック」のリメイク版もあり、ヒロインのローズがそのままパンダに変身したり、主人公のジャックと手をつなぐスタイルがとても面白いです...

リアルな人物変身、そして二次元妹の変身効果を見てみましょう。

AI魔法の杖、ワンクリック交換

AIの「領域変更」機能を使うことで、背景や被写体の服装までもを一貫したクリスマススタイルに変更できます。

一部のネットユーザーもこの置き換え機能を試し、ビーチのビールを一瞬にしてコーラに変えました。

特定の効果を実現するために、Chase Lean は 3 つのステップのみで完了するチュートリアルを提供しています。

まず、ビデオを生成する必要があります。Midjourney にビーチでコロナビールを飲む写真を生成させ、それをビデオにします。

手順 2: [編集] をクリックし、[ゾーンの変更] をクリックします。

ステップ 3: コカコーラなど、何に置き換えたいかを Pika に伝えます。

広がるキャンバス、並外れた想像力

画像キャンバス拡張機能は、MidjourneyAI などの多くの画像生成ツールに実際に実装されています。

Pika 1.0 は想像力を広げるだけでなく、絵を動かすこともできます。

アテネのパルテノン神殿を見てください。外側に描かれた風景は、この建物の壮大さをさらに際立たせています。

オリーブの木や、さまざまな驚きが隠されている古代の建物を訪れることもできます。

ビデオを録画すると、ピカが背景を直接想像することができます。

以下のユーザーは、テキスト プロンプトを使用して最初のビデオを作成し、キャンバスを数回拡張して 2 番目のビデオを取得しました。

最初のプロンプトは、城壁に立つ美しい王女の3Dアニメーションです。

コンサートレベルのミュージックビデオを制作したネットユーザーもいるが、まだ欠点があることは認めざるを得ない。

Pika 1.0 の背後にあるテクノロジー

これほど多くの驚くべき効果を見ると、おそらく多くの人が Pika 1.0 によって生成される技術的な詳細についてもっと知りたいと思うでしょう。

先ほど、当局はスタンフォード大学とPika Labsが共同で作成した論文を発表しました。

これまで、DreamFusion、ProlificDreamer などのモデルによる分留法によるテキストから 3D への生成の品質は高かったものの、実行時間は 10 時間にも及ぶことがありました。

最新の論文では、研究者らは分留法に基づく加速法「DreamPropeller」を提案しており、これにより既存の方法の速度を4.7倍に高めることができるという。

論文アドレス: https://arxiv.org/pdf/2311.17082.pdf

DreamPropeller の全体的なアーキテクチャを下図に示します。

各反復(k 回)の開始時に、3D 形状(緑色で表示)で構成されるウィンドウが初期化されます。次に、これらの形状は並列計算のために p 個の GPU に分散され、形状の SDS/VSD 勾配が GPU 上で並列に計算されます。

これらの勾配は式(9)の規則に従って収集され、形状を更新するために使用される。

ウィンドウは、その時間ステップでの誤差がしきい値 e 以上になるまで前方にスライドします。しきい値 e は、ウィンドウの平均/中央誤差に基づいて適応的に更新されます。

さらに、VSD の場合、研究者はすべての GPU に LoRA 拡散の個別のコピーを保持し、追加の通信を必要とせずに独立して更新します。

以下は DreamPropeller アプリケーションの代表的な例です。

最新のフレームワークは並列コンピューティングを速度と交換します。DreamGaussian と ProlificDreamer に適用すると、生成の品質を維持しながら速度が 4 倍以上向上します。

DreamPropeller が完成した時点で、ベースライン バージョンの外観と形状は明らかに劣っていました。

以下は他のモデルとの視覚的な比較です。 DreamPropeller アプローチは、より短い実行時間で同じ高品質を実現します。

DreamFusion ギャラリーからの 30 個のキューの定量的評価。実行時間は秒単位です。最新の研究手法により、4倍以上のスピードで競争力のある品質を実現します。

次の動画はトップストリームを生み出す

Pika 1.0 の誕生はインターネット全体に興奮を呼び起こし、次世代のトップビデオ世代になるかもしれません。

誰かが Discord 上の最大の AI 製品と、それらがプラットフォーム上でどれだけ大きいかを数えました。

以下は招待ページのトラフィックでランク付けされた上位 10 の AI アプリケーションです。Midjourney が 1 位、Pika が 2 位です。

上位 10 位のアプリのうち、4 位は画像生成アプリ、3 位は音声/歌生成アプリ、2 位はビデオ生成アプリです。

トラフィックの面では、画像がトップ 10 トラフィックの 74% を占め、次いでビデオが 8%、音声/音楽が 6% でした。

<<:  1人当たり6万ドル:2024年NVIDIA奨学金リストが発表、中国人5名が選出

>>: 

ブログ    

推薦する

人工知能は医療の未来をどう変えるのか

この病気の症状の多くは心配なものであり、めまいや不安感から始まることもあります。心臓のあたりがバクバ...

顔認識はどのように機能しますか?

顔認識は、テクノロジーを通じて人の顔を識別する方法です。顔認識システムは生体認証技術を使用して、写真...

...

5Gは医療業界に革命を起こす

[[377987]]画像ソース: https://pixabay.com/images/id-149...

...

Wolfram言語の父: ChatGPT は何ができるのか?

写真ChatGPT は非常に人気が高まり、人間の働き方や考え方さえも変え始めています。それを十分に理...

ChatGPTの10の実用的なビジネスユースケース

ChatGPT のビジネスユースケースは数多く登場していますが、組織は自社の特定のニーズに最適なシナ...

人工知能とビッグデータは私たちの生活をこのように変えるだろう

現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...

人工知能は非常に人気があります。PULSE は低品質のモザイク画像を保存し、数秒で高解像度の画像に変換できます。

[51CTO.com オリジナル記事] モザイクとはどういう意味ですか?従来のモザイクは、主に映画...

ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース:推論品質は62%向上し、コストは31%削減

大規模言語モデルは推論能力がまだ弱く、推論プロセスの改善を支援するためにさまざまな思考ツールに頼る必...

...

パスワードを忘れたことが引き起こすアルゴリズム思考

2日前、ウェブサイトにログインしようとしていたとき、よく使うパスワードを何回か試して失敗した後、「パ...

マスクを着用していても、AIはあなたが何を言っているか理解できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

これほど長い時間が経ったのに、なぜ物流ロボットは何千もの家庭に導入されていないのでしょうか?

先日終了したCESで、ドイツのコンチネンタルAGは、新しい物流ロボット、荷物配達ロボット犬「ANYM...

オープンソースの大規模言語モデル (LLM) の概要

大規模言語モデル(LLM)は人工知能分野における重要な研究方向であり、ChatGPT以降急速な発展を...