Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

Pika 1.0 が正式にリリースされてから、内部テストの資格を得たネットユーザーは大いに楽しんでいます。

誰かがこれを使って、赤毛の女の子と彼女の赤毛の猫の短いビデオを生成しました。

従来、一貫性の問題により、AI 動画を使用して優れたアニメーション作品を作成することは困難でした。しかし、Pika 1.0 は本当に嬉しい驚きです!

さらに衝撃的なのは、作者が、これは 100% テキストからビデオへの変換機能を使用して生成されたと述べていることです。

半月前、スタンフォード AI ラボの博士が設立したスタートアップ企業 Pika が、最初の製品をリリースした後、瞬く間にトップクラスの製品になったことを今でも覚えています。

3D アニメーション、アニメ、漫画、映画を生成できるだけでなく、スタイル変換や画面拡張などの重要な機能も実現できます。

今では多くのネットユーザーが試してみて、みんながすごいと思っているようです。

同時に、ピカの公式アカウントでは最新の研究結果を発表しました。同社がPika 1.0のリリース以来、技術的な詳細を公開するのは今回が初めてだ。

最新の研究では、テキストから 3D への生成速度を 4.7 倍に高めることができる DreamPropeller 方式が提案されました。

ネットユーザーによってテストされ、すべてが古典的である

次に、ネットユーザーの創造性を見てみましょう。

Runway の Gen-2 と比較すると、Pika 1.0 はキャラクターのアニメーション化において非常に一貫性があります。

映画レベルの効果、アニメ界の「宮崎駿」とも言える

Pika 1.0 はアニメ風の動物を描くのが得意です。さまざまなシーンのこれらのワシを見てください。

宮崎駿の画風がとても強いことがわかります。

マーベル風のフィギュアもあり、動くと本当に「アベンジャーズ」のように見えます。

キラキラ光る湖で遊んだ後、まるで家に帰る道を探しているかのように岸に向かって泳いでいく孤独な白鳥もいます。

アメリカ版『ウォーリー』アニメのSFスタイルも鮮やかに表現されています。

咲きかけの花のつぼみ。

以下の例は、ピカ自身が作ったジャングルのウサギの兵士の映画レベルのエフェクトであり、ヒントが示されています（内部テスト資格を取得したネットユーザーは試すことができます）

1. ジャングルにいるウサギの兵士の映画のような超クローズアップ、3Dレンダリング

2. ジャングルで巨大なニンジンを探索するウサギの兵士の映画のようなバックビューロングショット、3Dレンダリング

ズートピア、ライオンキング、パンダベアのマッシュアップ。

ネットユーザーは映画の予告編を作成し、そのタイトルまで考えた。「ゴジラキングコング：新帝国」

アインシュタインと彼の実験。

実在の人物が変身、タイタニックはパロディー

「AIレベルの監督」を自称する人物による実演もあり、ただただ驚かされるばかりです。

帽子とダウンジャケットを羽織ると、違和感なく体にぴったりフィットする組み合わせです。

周りのものを松やヒノキに変えたり、自分をシロクマに変身させたりもできる。とってもかわいい。

「タイタニック」のリメイク版もあり、ヒロインのローズがそのままパンダに変身したり、主人公のジャックと手をつなぐスタイルがとても面白いです...

リアルな人物変身、そして二次元妹の変身効果を見てみましょう。

AI魔法の杖、ワンクリック交換

AIの「領域変更」機能を使うことで、背景や被写体の服装までもを一貫したクリスマススタイルに変更できます。

一部のネットユーザーもこの置き換え機能を試し、ビーチのビールを一瞬にしてコーラに変えました。

特定の効果を実現するために、Chase Lean は 3 つのステップのみで完了するチュートリアルを提供しています。

まず、ビデオを生成する必要があります。Midjourney にビーチでコロナビールを飲む写真を生成させ、それをビデオにします。

手順 2: [編集] をクリックし、[ゾーンの変更] をクリックします。

ステップ 3: コカコーラなど、何に置き換えたいかを Pika に伝えます。

広がるキャンバス、並外れた想像力

画像キャンバス拡張機能は、MidjourneyAI などの多くの画像生成ツールに実際に実装されています。

Pika 1.0 は想像力を広げるだけでなく、絵を動かすこともできます。

アテネのパルテノン神殿を見てください。外側に描かれた風景は、この建物の壮大さをさらに際立たせています。

オリーブの木や、さまざまな驚きが隠されている古代の建物を訪れることもできます。

ビデオを録画すると、ピカが背景を直接想像することができます。

以下のユーザーは、テキストプロンプトを使用して最初のビデオを作成し、キャンバスを数回拡張して 2 番目のビデオを取得しました。

最初のプロンプトは、城壁に立つ美しい王女の3Dアニメーションです。

コンサートレベルのミュージックビデオを制作したネットユーザーもいるが、まだ欠点があることは認めざるを得ない。

Pika 1.0 の背後にあるテクノロジー

これほど多くの驚くべき効果を見ると、おそらく多くの人が Pika 1.0 によって生成される技術的な詳細についてもっと知りたいと思うでしょう。

先ほど、当局はスタンフォード大学とPika Labsが共同で作成した論文を発表しました。

これまで、DreamFusion、ProlificDreamer などのモデルによる分留法によるテキストから 3D への生成の品質は高かったものの、実行時間は 10 時間にも及ぶことがありました。

最新の論文では、研究者らは分留法に基づく加速法「DreamPropeller」を提案しており、これにより既存の方法の速度を4.7倍に高めることができるという。

論文アドレス: https://arxiv.org/pdf/2311.17082.pdf

DreamPropeller の全体的なアーキテクチャを下図に示します。

各反復（k 回）の開始時に、3D 形状（緑色で表示）で構成されるウィンドウが初期化されます。次に、これらの形状は並列計算のために p 個の GPU に分散され、形状の SDS/VSD 勾配が GPU 上で並列に計算されます。

これらの勾配は式(9)の規則に従って収集され、形状を更新するために使用される。

ウィンドウは、その時間ステップでの誤差がしきい値 e 以上になるまで前方にスライドします。しきい値 e は、ウィンドウの平均/中央誤差に基づいて適応的に更新されます。

さらに、VSD の場合、研究者はすべての GPU に LoRA 拡散の個別のコピーを保持し、追加の通信を必要とせずに独立して更新します。

以下は DreamPropeller アプリケーションの代表的な例です。

最新のフレームワークは並列コンピューティングを速度と交換します。DreamGaussian と ProlificDreamer に適用すると、生成の品質を維持しながら速度が 4 倍以上向上します。

DreamPropeller が完成した時点で、ベースラインバージョンの外観と形状は明らかに劣っていました。

以下は他のモデルとの視覚的な比較です。 DreamPropeller アプローチは、より短い実行時間で同じ高品質を実現します。

DreamFusion ギャラリーからの 30 個のキューの定量的評価。実行時間は秒単位です。最新の研究手法により、4倍以上のスピードで競争力のある品質を実現します。

次の動画はトップストリームを生み出す

Pika 1.0 の誕生はインターネット全体に興奮を呼び起こし、次世代のトップビデオ世代になるかもしれません。

誰かが Discord 上の最大の AI 製品と、それらがプラットフォーム上でどれだけ大きいかを数えました。

以下は招待ページのトラフィックでランク付けされた上位 10 の AI アプリケーションです。Midjourney が 1 位、Pika が 2 位です。

上位 10 位のアプリのうち、4 位は画像生成アプリ、3 位は音声/歌生成アプリ、2 位はビデオ生成アプリです。

トラフィックの面では、画像がトップ 10 トラフィックの 74% を占め、次いでビデオが 8%、音声/音楽が 6% でした。

<<: 1人当たり6万ドル：2024年NVIDIA奨学金リストが発表、中国人5名が選出

>>:

顔認証で支払うのはリスクがあります! CCTVは、自分の顔をスキャンして数万元のローンを組んだ女性を暴露した。

ブログ

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

ブログ

人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

ブログ

GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

ブログ

実用的なCNN畳み込みニューラルネットワークは、99.5％の精度で検証コードを認識します

ブログ

「電子ミバエ」がマスク氏を警戒させた！その背後には、コンピューターで実行できる13万個のニューロンからなる脳全体の地図がある。

ブログ

人工知能の時代において、従来のメディアはどのようにしてニュースの取り組みを守ることができるのでしょうか?

ブログ

MITはAIを活用して3Dプリント用の新素材の発見を加速

ブログ

ディープラーニングで知っておくべき活性化関数トップ10

ブログ

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

ネットユーザーによってテストされ、すべてが古典的である

映画レベルの効果、アニメ界の「宮崎駿」とも言える

実在の人物が変身、タイタニックはパロディー

AI魔法の杖、ワンクリック交換

広がるキャンバス、並外れた想像力

Pika 1.0 の背後にあるテクノロジー

次の動画はトップストリームを生み出す

顔認証で支払うのはリスクがあります! CCTVは、自分の顔をスキャンして数万元のローンを組んだ女性を暴露した。

暗唱することは理解を意味するわけではない。ビッグモデルの背後にある知識の蓄積と抽出の詳細な分析

人工知能は地球規模の気候危機に対処するために何ができるでしょうか?

GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

実用的なCNN畳み込みニューラルネットワークは、99.5％の精度で検証コードを認識します

「電子ミバエ」がマスク氏を警戒させた！その背後には、コンピューターで実行できる13万個のニューロンからなる脳全体の地図がある。

人工知能の時代において、従来のメディアはどのようにしてニュースの取り組みを守ることができるのでしょうか?

MITはAIを活用して3Dプリント用の新素材の発見を加速

ディープラーニングで知っておくべき活性化関数トップ10

推薦する

人工知能は神経技術をどのように進歩させるのでしょうか?

AIが企業の採用ルールをどう変えるのか

エンタープライズグレードのインテリジェントオートメーションガイド

マッキンゼーのレポート: 2030 年までに 8 億人が機械に置き換えられ、約 1 億人の中国人が転職を余儀なくされる!

物体検出と注釈の時代は終わったのでしょうか?

マイクロソフトCEOナデラ氏：私は4つの大きな変革を経験してきたが、AIは5番目だ

エンドツーエンドの自動運転は、Apollo や autoware などのフレームワークに取って代わるでしょうか?

AI技術のアップグレード：2022年に最も人気のある人工知能技術トップ10

自動運転はトラック運転手の失業を加速させている

老黄が勝利！ Nvidia H100の注文は24年待ち、マスク氏も黙っていられない

Siriは中国で禁止されるのでしょうか？国内AI企業がアップルを特許侵害で訴え、高等法院は中国の特許を有効と認定

C# バイナリツリートラバーサルアルゴリズムの実装の簡単な分析