効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

先ほど、ウルトラマンがOpenAI初の動画生成モデル「ソラ」をリリースしました。

DALL·E 3 の画質とコマンド追従能力を完璧に継承し、最長 1 分間の高解像度ビデオを生成できます。

AI の想像の中では、辰年の春節は赤い旗がはためき、大勢の人で賑わっています。

龍舞チームの後を興味深そうに見上げながらついていく子どもたちや、携帯電話を取り出して後を追ったり写真を撮ったりする人がたくさんいました。キャラクターの数も多く、それぞれに個性的な振る舞いをしていました。

雨上がりの東京の街中、濡れた地面に映るネオンの光はRTX ONに匹敵します。

走行中の電車の窓が時折塞がれ、車内の人々の姿が一瞬映り込み、とても印象的でした。

ハリウッド大作のような質感の映画予告編もご覧いただけます。

縦画面の超クローズアップ視点で見ると、このトカゲは細部までよくわかります。

ネットユーザーたちは、ゲームオーバーであり、職を失うことになるだろうと叫んだ。

業界全体を「悼む」人々もいる。

AIは物理的な世界の動きを理解する

OpenAIは、現実世界でのやり取りを必要とする問題を人々が解決できるようモデルを訓練することを目指し、動いている物理世界を理解しシミュレートすることをAIに教えていると述べている。

テキストプロンプトに基づいてビデオを生成することは、計画全体のほんの 1 つのステップにすぎません。

現在、Sora は複数のキャラクターと特定の動きを伴う複雑なシーンを生成できます。プロンプトでユーザーが提示した要件を理解できるだけでなく、これらのオブジェクトが物理世界にどのように存在するかを理解することもできます。

Sora は、1 つのビデオで複数のショットを作成することもできます。また、言語に対する深い理解力を活かして、キャラクターとビジュアル スタイルを維持しながら、ヒントを正確に解釈します。

美しい雪景色の東京は活気に満ちています。カメラは賑やかな街の通りを移動し、美しい雪の日を楽しみ、近くの屋台で買い物をする人々を追います。華やかな桜の花びらが雪の結晶とともに風に舞います。

OpenAI は、Sora の現在の弱点についても隠さず、複雑なシナリオの物理を正確にシミュレートすることが困難であり、因果関係を理解できない可能性があると指摘しています。

たとえば、「5 匹の灰色オオカミの子が人里離れた砂利道で遊び、追いかけ合っている」というシーンでは、オオカミの数が変わり、何匹かは突然現れたり消えたりします。

また、モデルは、左と右を混同するなど、手がかりの空間的な詳細を不明瞭にしたり、特定のカメラの軌跡をたどるなど、時間の経過に伴うイベントを正確に記述することが困難になる場合があります。

「バスケットボールがフープを通過して爆発する」というプロンプトのように、バスケットボールはフープによって適切にブロックされていません。

技術面では、OpenAI は現時点ではあまり明らかにしていませんが、簡単に紹介すると次のようになります。

Sora は、ノイズから始まり、一度にビデオ全体を生成したり、ビデオの長さを延長したりできる拡散モデルです。

重要なのは、一度に複数のフレームの予測を生成し、画像の主題が一時的に視野から外れても変更されないことを保証することです。

GPT モデルと同様に、Sora は Transformer アーキテクチャを使用し、強力なスケーラビリティを備えています。

データに関して言えば、OpenAI はビデオや画像を GPT のトークンと同様にパッチとして表現します。

この統一されたデータ表現により、さまざまな期間、解像度、アスペクト比をカバーする、以前よりも広範囲の視覚データでモデルをトレーニングできるようになります。

Sora は、DALL·E モデルと GPT モデルに関する過去の研究を基に構築されています。 DALL·E 3 の言い換え技術を使用して、視覚的なトレーニング データに対して非常に説明的な注釈を生成するため、ユーザーのテキスト指示に忠実に従うことができます。

このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成することもでき、画像の内容を正確にアニメーション化し、細部に注意を払います。

このモデルは既存のビデオを取得して拡張したり、欠落しているフレームを埋めたりすることもできます。詳細については技術論文を参照してください(後日公開予定)

Sora は現実世界を理解してシミュレートできるモデルの基盤であり、OpenAI はこれが AGI を実現するための重要なマイルストーンになると考えています。

ウルトラマンオンライン注文

すでに多くのビジュアルアーティスト、デザイナー、映画製作者(および OpenAI の従業員)にSora へのアクセス権が与えられています。

新作も続々と掲載され、ウルトラマンもネットでの受注を開始した。

キューワード @sama を含めると、生成されたビデオ応答が返される可能性があります。


<<:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

新しいインテリジェント顔認識温度測定システムソリューション

春節休暇の到来とともに、全国の主要都市の鉄道駅、空港、地下鉄などの公共の場所が、防疫・抑制の重点エリ...

ネットワークにおける機械学習の実用的応用

各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

AIがAIを攻撃、サイバーセキュリティ戦争が激化

最近のサイバーセキュリティ会議では、調査対象となった業界専門家100人のうち62人が、AIを活用した...

...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?練習チェックリストはこちら

[[198324]]導入この記事は、自然言語処理 (NLP) にニューラル ネットワークを使用する方...

自動運転車はすでに登場していますが、船舶が AI に取って代わられるまでには長い時間がかかるのでしょうか?

次回フェリーに乗るときは、ブリッジをよく見ることを忘れないでください。舵を取っているのは人間ではない...

AIがプライバシーを尊重しながら優れた顧客体験を生み出す方法

ゼブラテクノロジーズグレーターチャイナのテクニカルディレクター、チェン・ニン氏近年の人工知能(AI)...

...

CVPR で最も興味深い論文 | AI はぼやけた写真を復元できる

人生で、私たちは誰でもぼやけた画像に遭遇します。昔は、ぼやけた画像を復元することは不可能でした。PS...

ロボットR2-D2は50年後に人間の仕事を完全に置き換えるでしょうか?

[51CTO.com クイック翻訳] 海外メディアの報道によると、誰かが設計しているロボットがあな...

「ロボット」は詐欺の標的になり得るのか?

機械は識別や配送などの一連の機能を統合した後、自然に俳優と「対話」します。相互作用のプロセスにおける...

...

ワイヤレス ネットワークと人工知能が出会うと何が起こるでしょうか?

人工知能(AI)は未来の技術ではなく、すでに存在している技術です。機械学習のイノベーションにより A...