Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。

現在、AI モデルがさまざまなデータストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。

Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。

ビデオとオーディオは高頻度サンプリングで同期する必要がありますが、タイトルとビデオの説明は非同期で処理する必要があります。
ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Google は Mirasol でコンバイナーと自己回帰トランスフォーマーモデルを使用します。

このモデルコンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。

トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキストテキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。

Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ～ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ～ 512 フレームのビデオを処理できます。

テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。

IT Home は、ここに Mirasol の公式プレスリリースを添付します。興味のあるユーザーは、詳細を読むことができます。

<<: AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

>>: ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者：プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

人工知能の知られざる12の秘密

人工知能の知られざる12の秘密

ブログ

マイクロソフトの自動運転戦略：自動車を製造するのではなく、企業に技術サポートとクラウドサービスを提供する

マイクロソフトの自動運転戦略：自動車を製造するのではなく、企業に技術サポートとクラウドサービスを提供する

ブログ

ブログ

Transformer モデルにはいくつのバリエーションがありますか?復旦大学の邱希鵬教授のチームが包括的なレビューを行った。

Transformer モデルにはいくつのバリエーションがありますか?復旦大学の邱希鵬教授のチームが包括的なレビューを行った。

ブログ

AI を活用したハイパーオートメーションがビジネス効率を向上させる方法

AI を活用したハイパーオートメーションがビジネス効率を向上させる方法

ブログ

音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

ブログ

Javaは一般的な組み合わせアルゴリズムを実装する

Javaは一般的な組み合わせアルゴリズムを実装する

ブログ

人工知能は私たちに取って代わるのでしょうか？科学者たちは十分な証拠を提示しているが、その日が来るのはまだ遠い。

人工知能は私たちに取って代わるのでしょうか？科学者たちは十分な証拠を提示しているが、その日が来るのはまだ遠い。

ブログ

AI時代のITリーダーに必要な6つのソフトスキル

AI時代のITリーダーに必要な6つのソフトスキル

ブログ

大企業が AI 関連の合併や買収に夢中になっていることについてどう思いますか?

大企業が AI 関連の合併や買収に夢中になっていることについてどう思いますか?

ブログ

推薦する

...

...

Zoomに狂った外国人がビデオ会議ロボットを開発、同僚たちはすでに大笑い

[[321983]]この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI...

2023 年にビジネスリーダーが注目すべき IT の注目点トップ 10

選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。テクノロジーもこの混乱...

AIは仕事を楽にする？これらの人々は反対します。「仕事量が倍増しました!」

7月24日のニュース：昨年末にチャットボットChatGPTがリリースされて以来、人工知能がトレンド...

ビジネスインテリジェンスをビジネスに活用する 10 のメリット

[[434146]]ビジネスインテリジェンステクノロジーが推進する市場において、人工知能は企業に...

マイクロソフトとフェイスブックが共同で人工知能ソフトウェアを開発し、グーグルの主導的地位に挑戦

マイクロソフトはすでにオープンソースの人工知能ソフトウェアを持っています。しかしここ数カ月、マイクロ...

インターネットの前半は終わり、未来は人工知能の時代へ

少し前、ロシアのプーチン大統領は「人工知能 - 21世紀の主要技術」イベントに出席した際、人工知能ロ...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT は、企業の神経系と考えることができます。つまり、生産工場のあらゆる場所から貴重な情報...

OpenAI の「地震」の中心人物である Ilya を見てみましょう。彼は AI についてどう考えているのでしょうか?

OpenAIのCEOサム・アルトマン氏は先週金曜日に解雇され、もはや同社を率いていない。投資家たち...

オートメーション・エニウェア、世界初のウェブベースRPAプラットフォームを発表

RPA（ロボティック・プロセス・オートメーション）業界のリーダーであるオートメーション・エニウェアは...

...

Facebookは類似検索ライブラリFaissをオープンソース化、これは最速の既知のアルゴリズムより8.5倍高速

[[210003]] Facebook のオープンソース Faiss (Facebook AI Si...

OpenAIは「世界クラスの人材」を採用するためにロンドンに海外支社を設立すると発表

オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...

大規模言語モデルが信頼できるかどうかを評価するにはどうすればよいでしょうか? 7つの次元はここにまとめられている

実際の展開においては、大規模言語モデル（LLM）をどのように「整合」させるか、つまりモデルの振る舞い...