ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

ByteDance によって否定された中国版 Sora の何がそんなに素晴らしいのでしょうか?

執筆者 | Yun Zhao

制作:51CTO テクノロジースタック(WeChat ID:blog)

最近、SoraがVincentビデオトラックに火をつける前に、中国のByteDanceも新しいビデオモデルBoximatorをリリースしたというニュースが市場にありました。Gen-2やPink1.0などの既存のモデルと比較して、Boximatorのユニークな点は、テキスト入力を通じてビデオ内の人物やオブジェクトの動きを正確に制御できることです。

一部のメディアはこれを中国版Soraと呼んだ。これに対し、ByteDanceの関係者は、Boximatorはビデオ生成の分野における物体の動きを制御するための技術的手法の研究プロジェクトであり、現時点では完成された製品として実装することはできず、画質、忠実度、ビデオの長さなどの面で、海外の主要ビデオ生成モデルとの間にはまだ大きな差があると述べた。

1. なぜ中国版SORAと誤解されるのか?分析モデルの威力

Boximator は、3D U-Net アーキテクチャを採用したビデオ拡散モデル上に構築されています。簡単に言えば、3D U-Net アーキテクチャは、畳み込みブロックとアテンション ブロックが交互に配置された構成になっています。各ブロックは、単一のビデオ フレームを個別の画像として処理する空間コンポーネントと、フレーム間での情報交換を可能にする時間コンポーネントの 2 つのコンポーネントで構成されます。

各注意ブロックでは、空間コンポーネントには通常、自己注意レイヤーとそれに続くクロス注意レイヤーが含まれ、テキストプロンプトに基づいて生成するために使用されます。

写真

Boximator の素晴らしい点は、既存のビデオ拡散モジュールにモーション コントロール機能を追加したことです。これはどうやって行うのですか?

まず、ビデオ内のオブジェクトやキャラクターのモーションコントロールを実現するために、Boximator では「ソフト フレーム」と「ハード フレーム」という 2 つの制約方式を使用します。

その中で、ハード ボックスは、対象オブジェクトの境界ボックスを正確に定義します。これにより、ユーザーは画像内に関心のあるオブジェクトを描くことができ、Boximator はそれをハード ボックス制約として扱い、後続のフレームでオブジェクトの位置を正確に特定します。

一方、ソフト ボックスは、オブジェクトが存在する可能性のある領域を定義し、緩やかな境界ボックスを形成します。オブジェクトはこの領域内に留まる必要がありますが、適度なランダム性を実現するために位置は変化します。

どちらのタイプのボックスにもターゲット オブジェクトの ID が含まれており、異なるフレーム内の同じオブジェクトを追跡するために使用されます。さらに、ボックスには座標、タイプ、その他の情報のエンコードも含まれています。

写真

次に、元の 2 つの注意レイヤーの上に、Boximator は新しい自己注意レイヤー (空間自己注意) を追加してこのスタックを強化します。

パラメータに関しては、チームは、基本モデルが多数のネットワーク規模の画像とビデオで事前トレーニングされており、優れた一般知識機能を獲得していることを考慮し、元のモデルのパラメータを固定し、新しい目的のためのモーション制御モジュールのトレーニングのみに焦点を当てました。

もちろん、これはモデルレベルでの違いに過ぎません。データ、トレーニング、アルゴリズム、推論レベルでも、自己追跡技術や多段階トレーニング処理など、重要な改善が見られます。これらは、関係する研究者にとって学ぶ価値のある技術であり、ここでは詳しく紹介しません。興味のある方は論文を参照してください。

写真

写真

2. ビデオ実験の鍵:データ、データ

ベースライン モデルに関しては、ByteDance チームは Boximator をトレーニングするために PixelDance と ModelScope の 2 つを選択しました。

トレーニング データに関しては、研究者は WebVid-10M データセットから明らかなダイナミクスを持つ 110 万本のビデオ クリップをフィルターし、それらに対して 220 万個のオブジェクトの境界ボックスに自動的に注釈を付けました。注釈が付けられた説明には、「若い男」や「白いシャツ」など、ビデオ内のオブジェクトの名詞句が含まれていました。

実験結果によると、MSR-VTT データセットでは、Boximator はビデオ品質とボックスおよびオブジェクトの位置合わせ精度の両方において元のモデルよりも優れていることがわかりました。人間による評価でも、Boximator によって生成されたビデオは、品質とモーション制御の点で元のモデルを大幅に上回ります。

写真

写真

Github で公開されているエフェクト ビデオから判断すると、Boximator は元のモデル ビデオの品質を維持しながら、非常に強力なモーション コントロール機能を備えています。同時に、既存のビデオ拡散モデルの生成品質を向上させるプラグインとして使用することもできます。

3. 新しいビデオ製品が近々登場します

1月30日、梁如波氏はバイトダンスの大企業病を批判した。主な理由は効率の低さと機会に対する感度の低下の2つだ。梁氏の口調は非常に重かった。「企業レベルでの半年ごとの技術レビューでは、2023年までGPTの議論は始まっておらず、業界で成功した大型モデルのスタートアップはすべて2018年から2021年の間に設立されたものだ」

市場に遅れて参入するということは、遅れて参入するための資金があることも意味します。 Byte Groupは、新しいCエンド製品を開発するために、FeishuやDouyinなどのさまざまな事業部門から人材をこの新しいAI部門Flowに引き入れました。

ByteDance は現在、多くの注目すべき AI 製品を市場に投入しています。 DouyinやHuoshanなどのToutiao製品をベースに、DoubaoやKouziのアプリケーションも市場で高い評価を得ています。

ByteDance には常に AI の遺伝子があり、張一鳴氏も AI の偉大な支持者です。 2023年を振り返ると、ByteDanceは生成AIのレイアウトに多大な努力を払ってきました。

しかし、動画分野ではSORAの人気により、ByteDanceは王者の地位が覆される危機をより強く意識するようになったようだ。春節前にDouyinの元CEOである張楠氏が編集に転向した変化を思い出さずにはいられない。

この記事のBoximatorはまだ実験研究段階であり、まだ実装されていませんが、Jianyingが今月AI RAW写真およびビデオ製品を発売するというニュースがあります。楽しみに待ちましょう。

追記:Boximator に興味のある方は、論文の著者にメールを送って試用を申し込むことができます:[email protected]

参考リンク:

https://arxiv.org/abs/2402.01566

参考:

https://zhuanlan.zhihu.com/p/682140112

<<: 

>>:  現代の製造業におけるマシンビジョンと人工知能の重要な役割

推薦する

...

女神があなたを好きかどうか知りたいなら、AI マシンであなたの顔をスキャンするだけです。

[[281019]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

[ホワイトベアおもしろ事実4] パーフェクトワールド:ペットの犬にはロボットがいて、独身の犬にはバーチャルガールフレンドがいる

[[185884]]飼い犬用のロボットを設計した人や、独身者向けのバーチャルガールフレンドを作った人...

FenyintaのCTO、張明氏:観光産業を深く掘り下げ、AI技術を使って異言語コミュニケーションの問題を解決する

[51CTO.comからのオリジナル記事] 1930年代初頭、フランスの科学者GBアルチュニは翻訳に...

人工知能の開発における主な成果は何ですか?また、どのような課題に直面していますか?

現代の人工知能は、現代の科学技術の中で最も驚くべき強力な技術の 1 つとなり、破壊的な技術でもありま...

清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

人工知能の分野では、大規模なモデルを使用してインテリジェントエージェントを制御することは避けられない...

人工知能の今後5年間で世界が注目する10人

[[251996]]十分に大きな技術的放射効果により、人工知能は世界経済の発展において主導的な地位に...

ゲームAIの課題が進み、リアルタイム戦略ゲームや不完全情報ゲームがホットスポットに

前回の 2 つの記事では、ゲーム AI の歴史におけるいくつかの古典的なアルゴリズムと画期的なイベン...

AIによりドローンは未知の環境でも高速で自律飛行できる

チューリッヒ大学の研究者らは、複雑で未知の環境でもドローンが高速で自律飛行できるようにする新たな人工...

清華大学がゲーム会社を設立しました! 10人以上のChatGPTが勤務し、7分でゲームを開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIと自動化により企業のクラウド移行が改善

COVID-19 パンデミックの影響で、2020 年末までに推定 60% の企業がワークロードをクラ...

人工知能によりスマートロックが「考える」ことが可能になり、ユーザーの悩みを解決

このニッチ産業には大きな発展の可能性があり、特にドアロック業界は従来のドアロックからスマートドアロッ...

...

AIがトランプ氏をダンサーに変身させ、蔡旭坤とともに「チキン、ユー・アー・ソー・ビューティフル」を踊った

[[357996]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

Googleが小規模でGeminiのテストを開始したと報道:GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

今年5月のGoogle I/Oカンファレンスで、ピチャイ氏はGPT-4と競合する大規模モデルであるP...