過去 2 週間で AI の進路を変える可能性が最も高い 6 つのリリース!

編纂者：ヤン・ジェン

制作：51CTO テクノロジースタック（WeChat ID：blog）

過去 2 週間は、新しい AI アップデートがリリースされて大変でした。私たちは、最近公開された上位 6 つのフレームワークとモデルをまとめることにしました。

1. ActAnywhere: テーマを考慮したビデオ背景生成

写真

Adobe Research とスタンフォード大学は、映画業界や視覚効果において、ビデオの背景を前景の被写体の動きに合わせるという課題に対処する生成モデル、Act Anywhere を発表しました。このモデルは、大規模なビデオ伝播モデルを活用して、通常は労働集約的なプロセスを自動化します。

一連の前景と被写体のセグメンテーションと、目的のシーンを表す条件付きフレームを入力として受け取り、一貫した前景と背景の相互作用を持つリアルなビデオを生成します。

大規模な人間のシーンのインタラクションビデオデータセットでトレーニングした後、データは、Act Anywhere がベースラインと比較して優れたパフォーマンスを発揮し、さまざまな分布外サンプル (人間以外の対象を含む) を処理できることを実証していることを示しています。

2. ガラ

写真

Metaは、Facebook、Instagram、WhatsAppなどのさまざまなプラットフォーム上のアバターの改善に取り組んできました。そこで、Meta の Codec Avatars Lab は、ソウル国立大学と共同で、単層の衣服を着た 3D 人間のメッシュを完全なレイヤーの 3D アセットに変換し、さまざまなポーズの多様な衣服を着た人間のアバターを作成できるようにする GALA フレームワークを立ち上げました。

衣服を着た人間を単層のジオメトリとして扱う既存の方法とは異なり、GALA は人間の髪型、衣服、アクセサリーの構成に基づいて下流のアプリケーションを強化します。メッシュを個別のレイヤーに分解することは、オクルージョンのために困難であり、分解が成功したとしても、ポーズや体の形が現実とは異なる場合があります。

この問題を克服するために、研究者らは、形状と外観の事前モデルとして、事前にトレーニングされた 2D 拡散モデルを使用しました。このプロセスは、マルチビュー 2D セグメンテーションからの 3D サーフェスセグメンテーションを使用して入力メッシュをセグメント化し、新しいポーズガイド付きスコア蒸留サンプリング (SDS) 損失を使用してポーズおよび標準空間で欠落しているジオメトリを合成し、同じ SDS 損失をテクスチャが完全な外観に適用することから構成されます。その結果、ポーズと体型が標準化された共有標準空間内の多層 3D アセットが作成され、新しいアイデンティティとポーズを簡単に構成できるようになります。

3. ルミエール

写真

合成動画でリアルで多様性があり、一貫性のある動きを作成するという課題に対処するため、Google は、ワイツマン研究所、テルアビブ大学、テクニオン - イスラエル工科大学が共同で開発したテキストから動画への変換モデルである Lumiere を提案しています。トレーニングには、長距離キーフレームと時間的超解像度を使用する既存のモデルとは異なり、ビデオの全期間を一度に生成する時空間 U-Net アーキテクチャが含まれます。

空間処理と時間処理を組み合わせ、事前にトレーニングされたテキストから画像へのモデルを活用することで、システムはフルフレームレートの低解像度ビデオを直接生成します。画像からビデオへの変換やスタイル生成など、テキストからビデオへの変換タスクに優れています。このモデルは最先端のテキストからビデオへの変換結果を示しており、画像からビデオへの変換、ビデオの修復、様式化された生成などのタスクに適用できます。

ただし、現時点では複数のショットやシーンの遷移を含むビデオを処理できないため、これらの領域についてはさらなる研究が必要です。いくつかの制限はあるものの、このプロジェクトは、ユーザーが創造的かつ柔軟にビジュアルコンテンツを生成できるようにすることに重点を置いています。

4. メタプロンプト

もう 1 つの興味深い研究論文では、OpenAI とスタンフォード大学が協力して、タスクに依存しない方法で言語モデル (LM) のパフォーマンスを向上できる効果的なスキャフォールディング手法であるメタキューを提案しました。これは、複数の独立したクエリを管理できる多機能コンダクターに変換することによって行われます。メタプロンプトはタスクに依存せず、詳細な指示なしでユーザー操作を簡素化します。

GPT-4 の実験では、メタプロンプトが従来の方法よりも優れていることが示されています。Game of 24、Checkmate-in-One、Python プログラミングパズルなどのタスクでは、メタプロンプトは標準プロンプトよりも 17.1%、動的プロンプトよりも 17.3%、マルチパーソンプロンプト (MP) よりも 15.2% 優れています。

メタキューは明確な指示を使用して、LM が複雑なタスクをより小さなサブタスクに分解するようにガイドします。その後、サブタスクは同じ LM の特殊なインスタンスによって処理され、それぞれがカスタマイズされた指示に従います。 LM は導体として機能し、スムーズな通信と出力の効果的な統合を保証します。また、批判的思考と検証プロセスを使用して結果を改良します。この共同キューにより、単一の LM がコーディネーターと専門家グループの両方の役割を果たすことができるため、さまざまなタスクのパフォーマンスが向上します。

5. 自己報酬型言語モデル

写真

Meta と NYU の最近の研究論文では、人間のパフォーマンスによって制限され、トレーニング中に改善されない可能性がある、人間の好みから派生した報酬モデルに依存しない自己報酬型言語モデルが紹介されています。これらのモデルは、出力を評価およびトレーニングすることで自分自身を調整し、言語モデル自体を使用して、審査員へのプロンプトとして LLM を通じて報酬を生成します。

このアプローチには反復的なトレーニングが含まれ、モデルは LLM を審査員からのプロンプトとして使用して自身の出力に報酬を割り当て、それによって好みに基づいた指示データを生成します。結果は、このトレーニングにより、モデルの指示に従う能力が向上し、反復を通じて報酬モデリングが改善されることを示しています。

6. 必要なのは Gaussian Adaptive Attention (GAAM) だけです。

写真

この研究では、特に変動の大きいデータに対してモデルのパフォーマンスとコンテキスト表現を改善するために、マルチヘッドガウス適応型注意メカニズム (GAAM) とガウス適応型トランスフォーマー (GAT) を導入します。 GAAM は学習可能な平均と分散をアテンションメカニズムに組み込み、マルチヘッドフレームワーク内に構築します。この設定により、GAAM は任意の確率分布を共同で表現できるようになり、必要に応じて機能の重要性を継続的に調整できるようになります。

この研究では、モデルの解釈可能性を高めるために重要度係数 (IF) も導入されました。 GAAM (新しい確率的注意フレームワーク) と GAT は、音声、テキスト、視覚的モダリティにわたる情報のコンパイルを容易にするために提案されています。特徴空間内の主要要素を識別することにより、モデルのパフォーマンスの点で最先端の注意技術を上回ります。

この論文は、ジェームズ・シルバーラッド・ブラウン人工知能センター、カーネギーメロン大学、スタンフォード大学、アマゾンによって発表されました。

<<: Big Vsが推奨するAI論文の引用数は倍増するでしょうか？過去5年間の2人のTwitterブロガーのツイートの影響が明らかに

>>: