ハリウッドのAIに対する攻撃は、AIの脚本の最新エピソードに書かれていた

今日まで、『ゲーム・オブ・スローンズ』の最終シーズンに失望していたかもしれません。しかし、AI にまったく異なる新しいエンディングを作成させ、場合によっては自分自身を主人公や他のキャラクターとして登場させることもできると想像してみてください。

最近、サンフランシスコのスタートアップ企業Flableは、大規模なシミュレーションプロジェクト「The Simulation」を立ち上げ、ユーザーを主人公にした新しいドラマを生成できるショーランナーAIテクノロジー「SHOW-1」をリリースしました。

ハリウッドの脚本家や俳優たちがAIに抗議してストライキを行っていることを考えると、この発表のタイミングは興味深い。

写真

論文リンク: https://fablestudio.github.io/showrunner-agents/static/pdfs/To_Infinity_and_Beyond_SHOW-1_And_Showrunner_Agents_in_Multi_Agent_Simulations.pdf

この研究では、大規模言語モデル (LLM)、カスタマイズされた拡散モデル、マルチエージェントシミュレーションの機能を組み合わせて、文脈の関連性、ストーリーの進行、行動制御などの高品質な新しいエピソードコンテンツを生成しました。

Showrunner AI のようなツールを使用すると、優れたコンテンツを簡単に作成できますが、これは映画やテレビ業界のクリエイティブな人々にとって真の脅威であると言えます。現在、ハリウッドの脚本家や俳優たちは、AIの侵略の可能性に抵抗するためにストライキを行っている。皮肉なことに、今起きたこれらの現実の出来事が AI によって最新のエピソードに書き込まれました。

新しいエピソードを生成するにはどうすればいいですか?

「サウスパーク」は、1997年に初放送されたアメリカのアニメコメディです。放送開始直後から大成功を収め、現在までに26シーズン、325話が放送されています。このシリーズは、スタン・マーシュ、カイル・ブロフロフスキー、エリック・カートマン、ケニー・マコーミックの 4 人の少年と、彼らが住むコロラド州の小さな町とその周辺での体験を中心に展開します。

よく知られている舞台裏のストーリーとしては、番組の各エピソードが 6 日以内に制作されているということです。ブレインストーミング会議の後、脚本家が脚本を書き、その後、アニメーター、編集者、技術者、サウンドエンジニアのチーム全体が脚本を完成させます。チームは通常、翌週に100〜120時間働きます。

このようなコンパクトな制作プロセスは、現代の映画やテレビ業界では珍しいことではありませんが、生成 AI がさらに強力になるにつれて状況は変化します。

完全に新しいエピソードを生成するために、ユーザーはストーリーシステムに高レベルのアイデアを提供できます。これには通常、タイトル、プロットの概要、シミュレートされた 1 週間の時間 (ゲーム時間で約 3 時間) 内に発生させたい主なイベントが含まれます。

そこから、ストーリーシステムは、プロンプトチェーンの一部としてシミュレーションデータを使用して、最大 14 のシナリオを自動的に推測します。ステージ管理システムは、各シーンのキャラクターの選択と、プロットモードを通じてストーリーを進める方法を担当します。各シーンにはプロット文字（A、B、C など）が関連付けられており、ショーランナーはエピソード内でさまざまなキャラクターグループを交互に登場させ、個々のストーリーラインを追跡してユーザーの関心を維持します。

最終的に、各シーンでは場所、俳優、各俳優のセリフを定義するだけで済みました。ステージシステムと人工知能カメラシステムの初期設定が完了すると、プロットモード（ABABCなど）に従ってシーンが再生されます。各キャラクターの声は事前に複製されており、新しいセリフごとに音声クリップが即座に生成されます。

写真

ストーリー生成プロセスは、シミュレーション、ユーザー、GPT-4 の共同タスクです。誰もが自分の長所と短所、独自の役割を持ち、貢献の重みも異なります。

「シミュレーション」では通常、IP に基づいて背景、キャラクターの履歴、感情、イベント、場所が提供され、初期の創造プロセスの基盤が提供されます。「ユーザー」は、自身の意図を導入し、エージェントの動作を制御し、生成プロセスを開始するための最初のプロンプトを提供し、プロセスの最後に生成されたストーリーの内容を評価する最終審査員として機能します。また、「GPT-4」はメインの生成エンジンとして機能し、ユーザーから受け取ったプロンプトやシミュレーションに基づいてシーンやダイアログを作成および推測します。

これは、参加者それぞれの強みが、一貫性のある説得力のあるストーリーに貢献する共生のプロセスです。プロンプトチェーン形式のマルチステップアプローチは、チェックとバランスも提供し、発生する可能性のある不要なランダム性を減らし、IP ストーリーの元の世界との一貫性を高めます。

写真

プロセスに関しては、クリエイターは、1.「The Simulation」にエピソードを自動作成させる、2.1～2文のヒントを与える、3.詳細を知りたい場合はヒントを与え、その後、会話シーンをシーンごとに編集して再生成することができます。

写真

研究方法

この研究では、大規模言語モデル (LLM)、カスタマイズされた SOTA 拡散モデル、マルチエージェントシミュレーションを使用して、コンテキスト化、ストーリーの進行、行動制御を実現し、最終的にストーリー IP 用の高品質の映画およびテレビシリーズコンテンツを生成しました。

Stable Diffusion（画像生成モデル）や ChatGPT（大規模言語モデル）などの既存の生成 AI システムは、一般的に短期的なタスクを完了するのに優れています。しかし、AI モデルを使用して、完全でよく考えられた長編ストーリーや TV シリーズを生成することは、幅広い応用の可能性があります。

この研究の全体的なアイデアは、大規模な言語モデルと画像生成モデルを組み合わせることです。大規模言語モデルでは主にOpenAIのGPT-4モデルを使用し、画像生成ではカスタム拡散モデルを使用します。

大規模言語モデル

この研究では、GPT-4 を広範に活用してシミュレーション内のエージェントに影響を与え、サウスパークのエピソードからシーンを生成しました。サウスパークのエピソードのほとんどは GPT-4 トレーニングデータセットの一部であったため、GPT-4 はすでにキャラクターの性格、会話スタイル、全体的なユーモアのセンスをよく理解しており、カスタムで微調整されたモデルは必要ありませんでした。

多段階の創造プロセスをシミュレートするために、この研究ではさまざまなプロンプトチェーンを使用して、さまざまなシーンのイベントを比較および評価し、それらがストーリー全体を満足のいく IP 一貫性のある結末に向けてどのように動かすかを評価しました。

これは、アイデアが複数の個別のステップで構造化され、洗練される人間のブレーンストーミングプロセスを模倣したものです。この研究では、LLM の生成力とプロンプトチェーンによって実現される反復的な改良を活用することで、ダイナミックで詳細かつ魅力的なストーリーを効果的に構築しました。

たとえば、14 の異なるシーンを作成する際に、この研究では、全体的な物語の概要を示す一般的なプロンプトが提供され、その後に、各シーンの登場人物、場所、主要なプロットポイントを詳細に説明して評価する具体的なプロンプトが続きました。

拡散モデル

カスタム拡散モデルをトレーニングするために、研究者は、モデルが番組のスタイルを学習するための原材料として、過去のエピソードから約 1,200 のキャラクターと 600 の背景画像の包括的なデータセットを収集しました。

これらのモデルをトレーニングするために、研究者はDream Boothを使用しました。トレーニングフェーズの結果、 2 つの特殊な拡散モデルが作成されました。

最初のモデルは、キー設定可能な背景色に対して単一の文字を生成するために特別に設計されています。これにより、生成されたキャラクターを後続の処理やアニメーション用に抽出し、新しく生成されたキャラクターをさまざまなシーンや設定にシームレスに統合できるようになります。さらに、キャラクター拡散モデルを使用すると、ユーザーは画像間の安定した拡散プロセスを通じて自分の外見に基づいたキャラクターを作成し、参加エージェントとしてシミュレーションに参加することができます。ユーザーは自分の声を複製できるため、ユーザー独自の外見、書き方、声に基づいて、完全に実現された自律的なキャラクターを想像するのは簡単です。

写真

2 番目のモデルは、特に外部および内部環境のクリーンな背景を生成するために使用されます。このモデルは、生成されたキャラクターが相互作用するための「ステージ」を提供し、さまざまなシナリオやプロットの作成を可能にします。

写真

これらのモデルの出力はピクセルベースであるため、生成される画像の解像度は本質的に制限されます。この制限を回避するために、研究者らは AI アップスケーリング技術 (具体的には R-ESRGAN-4x+-Anime6B) を使用して生成された画像を後処理し、画像の品質を改善および強化しました。

写真

将来の 2D インタラクションでは、ベクトルベースの出力を生成できるカスタムトランスフォーマーベースのモデルをトレーニングすることには多くの利点があります。ピクセルベースの画像とは異なり、ベクターグラフィックはサイズを変更したり拡大縮小しても品質が低下しないため、無制限の解像度を実現できます。これにより、モデルは、表示されるスケールに関係なく、品質と詳細を維持する画像を生成できるようになります。

さらに、ベクターベースのグラフィックスが個別の部分に分離され、生成されたアセットを手続き型のワールド構築やアニメーションシステムに統合することをより複雑にしていたピクセルベースの透明度やセグメンテーションなどの後処理の問題が解決されました。

写真

レイテンシー問題の解決

もちろん、このプロセスでは、レイテンシなど解決する必要がある問題がいくつかあります。

実験では、シーンの生成に最大 1 分ほどかかる場合があります。エピソードはゲームプレイ中に生成されるため、ユーザーがシミュレーションやその他のユーザーインターフェイスを操作している間は、生成時間はほとんど非表示になります。シーンやエピソードの生成に必要な時間を短縮するもう 1 つの方法は、品質と精度が重要ではない特定のプロンプトチェーンに使用できる GPT-3.5-turbo などの高速モデルを使用することです。

下の図は、GPT-3.5-turbo と GPT-4 の応答時間を比較したものです。モデルとサービスインフラストラクチャが改善され、その他の要因 (ユーザーの需要の高さによる人為的なスロットリングなど) が排除されると、近い将来、生成率は増加するでしょう。

写真

シーンの再生中、単純なバッファリングシステムを通じて少なくとも 1 つの音声セグメントが事前に生成されるため、オーディオ生成に関連する会話の行間の不要な一時停止が回避されます。つまり、あるキャラクターが音声クリップを再生している間に、次の音声クリップのネットワーク要求がすでに行われ、その音声クリップが生成されるのを待機し、ファイルをダウンロードし、現在の話者が会話を終了するまで待機してから再生されます (遅延)。こうすることで、次のセリフの音声クリップを遅延なく送信できます。テキスト生成および音声クローニングサービスはますます高速化しており、適応性の高いほぼリアルタイムの音声会話が可能になります。

写真

さらに研究者らは、この方法の注目すべき点は、「スロットマシン効果」、「オートミール問題」、「空白ページ問題」など、従来の生成AIシステムを悩ませてきた問題を軽減することだと述べた。研究の詳細については原著論文を参照してください。

これまで、AI 生成コンテンツは一般的に品質が低いと考えられていましたが、「The Simulation」はまったく新しい可能性を提供します。ディズニーが、完全に AI によって生成された映画を制作したと公表したらどうなるでしょうか?もしスピルバーグが一人でAI映画を作ったらどうなるでしょうか？この見解がすぐに変わるかどうかは分かりません。

<<: ChatGPTはカスタムコマンドを起動します。一度言って覚えておけば、話すたびにそれに従います。

>>: AI エージェントが GPT-4 と連携して人間のディレクターを排除します。「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された