Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。

現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。

Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。

  • ビデオとオーディオは高頻度サンプリングで同期する必要がありますが、タイトルとビデオの説明は非同期で処理する必要があります。
  • ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。

このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。

トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。

Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。

テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。

IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。

<<:  AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

>>:  ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

ブログ    
ブログ    

推薦する

この記事では、人工知能がクラウドコンピューティングをどのように変え、私たちの生活にどのような影響を与えるかを説明します。

AIがクラウドコンピューティングをどう変えるかクラウド コンピューティングは、オンライン アクティ...

...

いくつかの小さな図でディープラーニングを徹底的に説明します

Andrew Ng 氏は、Tess Ferrandez 氏が修了したディープラーニング特別コースのイ...

2024年のAIソフトウェアテストの主なトレンド

AI ソフトウェア テストの分野では、将来的に複数の開発トレンドに直面する可能性があり、そのいくつか...

顔認識には「強制的な同意」ではなく「個人の同意」が必要なのでしょうか?弁護士の言うこと

顔認識技術は、複製不可能、非接触、高速などの利点により、インテリジェントな通過と迅速な本人確認に優れ...

...

Upscayl、最先端のAI画像拡大技術

デジタル時代では、画像はどこにでもあります。ソーシャル メディアで写真を共有する場合でも、ビジネスの...

...

ロボットは購入するよりもレンタルした方が良いのでしょうか?新モデルの普及には「4段階をクリア」する必要がある

ロボットの重要性は明らかです。ロボットは効率的で柔軟性があり、安定した動作特性を備えているため、人間...

今後 3 ~ 5 年で、機械学習のどの分野の人材が最も不足するでしょうか?

[[205598]]すでにこの業界にいる私としては、今後数年間で業界にどのような機械学習の才能が必...

Colossal-AIはHugging Faceコミュニティをシームレスにサポートし、低コストで大規模モデルを簡単に加速します。

大規模モデルは AI コミュニティのトレンドとなり、主要なパフォーマンス チャートを席巻するだけでな...

[文字列処理アルゴリズム] 入力文字列の各単語の順序を逆にするアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、文字列内の単語を逆順に組み立てて出力するプログラムを作成します。たと...

...

...

これら 19 の主流 AI テクノロジーについて、どの企業がサービスを提供しているかご存知ですか?

[51CTO.com クイック翻訳] 自然言語生成や音声認識などの分野を中心に、現在主流となってい...