効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

効果は爆発的! OpenAIが初のビデオ生成モデルをリリース、1分間のスムーズなHDビデオ、ネットユーザー:業界全体が安らかに眠る

先ほど、ウルトラマンがOpenAI初の動画生成モデル「ソラ」をリリースしました。

DALL·E 3 の画質とコマンド追従能力を完璧に継承し、最長 1 分間の高解像度ビデオを生成できます。

AI の想像の中では、辰年の春節は赤い旗がはためき、大勢の人で賑わっています。

龍舞チームの後を興味深そうに見上げながらついていく子どもたちや、携帯電話を取り出して後を追ったり写真を撮ったりする人がたくさんいました。キャラクターの数も多く、それぞれに個性的な振る舞いをしていました。

雨上がりの東京の街中、濡れた地面に映るネオンの光はRTX ONに匹敵します。

走行中の電車の窓が時折塞がれ、車内の人々の姿が一瞬映り込み、とても印象的でした。

ハリウッド大作のような質感の映画予告編もご覧いただけます。

縦画面の超クローズアップ視点で見ると、このトカゲは細部までよくわかります。

ネットユーザーたちは、ゲームオーバーであり、職を失うことになるだろうと叫んだ。

業界全体を「悼む」人々もいる。

AIは物理的な世界の動きを理解する

OpenAIは、現実世界でのやり取りを必要とする問題を人々が解決できるようモデルを訓練することを目指し、動いている物理世界を理解しシミュレートすることをAIに教えていると述べている。

テキストプロンプトに基づいてビデオを生成することは、計画全体のほんの 1 つのステップにすぎません。

現在、Sora は複数のキャラクターと特定の動きを伴う複雑なシーンを生成できます。プロンプトでユーザーが提示した要件を理解できるだけでなく、これらのオブジェクトが物理世界にどのように存在するかを理解することもできます。

Sora は、1 つのビデオで複数のショットを作成することもできます。また、言語に対する深い理解力を活かして、キャラクターとビジュアル スタイルを維持しながら、ヒントを正確に解釈します。

美しい雪景色の東京は活気に満ちています。カメラは賑やかな街の通りを移動し、美しい雪の日を楽しみ、近くの屋台で買い物をする人々を追います。華やかな桜の花びらが雪の結晶とともに風に舞います。

OpenAI は、Sora の現在の弱点についても隠さず、複雑なシナリオの物理を正確にシミュレートすることが困難であり、因果関係を理解できない可能性があると指摘しています。

たとえば、「5 匹の灰色オオカミの子が人里離れた砂利道で遊び、追いかけ合っている」というシーンでは、オオカミの数が変わり、何匹かは突然現れたり消えたりします。

また、モデルは、左と右を混同するなど、手がかりの空間的な詳細を不明瞭にしたり、特定のカメラの軌跡をたどるなど、時間の経過に伴うイベントを正確に記述することが困難になる場合があります。

「バスケットボールがフープを通過して爆発する」というプロンプトのように、バスケットボールはフープによって適切にブロックされていません。

技術面では、OpenAI は現時点ではあまり明らかにしていませんが、簡単に紹介すると次のようになります。

Sora は、ノイズから始まり、一度にビデオ全体を生成したり、ビデオの長さを延長したりできる拡散モデルです。

重要なのは、一度に複数のフレームの予測を生成し、画像の主題が一時的に視野から外れても変更されないことを保証することです。

GPT モデルと同様に、Sora は Transformer アーキテクチャを使用し、強力なスケーラビリティを備えています。

データに関して言えば、OpenAI はビデオや画像を GPT のトークンと同様にパッチとして表現します。

この統一されたデータ表現により、さまざまな期間、解像度、アスペクト比をカバーする、以前よりも広範囲の視覚データでモデルをトレーニングできるようになります。

Sora は、DALL·E モデルと GPT モデルに関する過去の研究を基に構築されています。 DALL·E 3 の言い換え技術を使用して、視覚的なトレーニング データに対して非常に説明的な注釈を生成するため、ユーザーのテキスト指示に忠実に従うことができます。

このモデルは、テキストの指示のみに基づいてビデオを生成できることに加えて、既存の静止画像を取得してそこからビデオを生成することもでき、画像の内容を正確にアニメーション化し、細部に注意を払います。

このモデルは既存のビデオを取得して拡張したり、欠落しているフレームを埋めたりすることもできます。詳細については技術論文を参照してください(後日公開予定)

Sora は現実世界を理解してシミュレートできるモデルの基盤であり、OpenAI はこれが AGI を実現するための重要なマイルストーンになると考えています。

ウルトラマンオンライン注文

すでに多くのビジュアルアーティスト、デザイナー、映画製作者(および OpenAI の従業員)にSora へのアクセス権が与えられています。

新作も続々と掲載され、ウルトラマンもネットでの受注を開始した。

キューワード @sama を含めると、生成されたビデオ応答が返される可能性があります。


<<:  GPT-4を使用すると、成績の悪い生徒は成績の良い生徒よりも有利になる

>>: 

ブログ    

推薦する

Google のロボット工学プログラムは度重なる失敗からどのような教訓を得たのでしょうか?

Google は再びロボットの製造を開始する予定です。 。 。このニュースを伝えたとき、私は Go...

...

顔認識は簡単すぎる、AIは指の動きも認識できる、これは非常に恐ろしい

現代のコンピューター ビジョン テクノロジーは、これまで映画でしか見たことのないようなテクノロジーの...

人間とコンピュータのインタラクション技術の現状と進化 将来、私たちはどのように機械とコミュニケーションをとるのでしょうか

コンピューターやその他の機械は、生産性を高め、より多くのことを学び、お互いのつながりを保つことを可能...

...

2021年4月のドローン業界の重要な動向の概要

2021年3月に入り、ドローン業界では新製品の登場、用途の深化、大きな出来事の連続など、発展は活気に...

ディープラーニングとツリー探索によるゼロからの高速学習と低速学習

[[211446]]この記事では、ロンドン大学ユニバーシティ・カレッジ (UCL) の Thomas...

人間は「作り笑顔」を認識できますが、ロボットはどうでしょうか?

多くのことは国や地域の規制の対象となりますが、人間の表情を認識する能力はいかなる規制も超越しています...

...

PTC PLM、Volocopter の自律飛行タクシー開発をサポート

PTC(NASDAQ: PTC)は、ドイツの新興企業 Volocopter が自律飛行輸送システムの...

人工知能はどれくらい普及しているのでしょうか?国内初となる人工知能講座が小中学校で実施されました!

5月5日、教育部が主催する第3回全国基礎教育情報化応用展示会・交流活動において、北京市朝陽区で人工...

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。 「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIエージェントがまた衝撃的なニュースをもたらしました。AIエージェントが直接監督に昇進し、「サウス...

古代から皇帝の寿命は短かった。皇帝も負荷分散アルゴリズムを理解していたら...

[51CTO.com オリジナル記事] 古代の皇帝はハーレムに3000人の美女を抱えていたことは誰...

...