Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張

11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。

現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。

Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。

  • ビデオとオーディオは高頻度サンプリングで同期する必要がありますが、タイトルとビデオの説明は非同期で処理する必要があります。
  • ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。

このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。

トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。

Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。

テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。

IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。

<<:  AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

>>:  ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善

ブログ    

推薦する

...

...

Zoomに狂った外国人がビデオ会議ロボットを開発、同僚たちはすでに大笑い

[[321983]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

2023 年にビジネス リーダーが注目すべき IT の注目点トップ 10

選択の余地はありません。2022年は近年で最も激動の年の一つになるでしょう。 テクノロジーもこの混乱...

AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

7月24日のニュース:昨年末にチャットボットChatGPTがリリースされて以来、人工知能がトレンド...

ビジネスインテリジェンスをビジネスに活用する 10 のメリット

[[434146]]ビジネス インテリジェンス テクノロジーが推進する市場において、人工知能は企業に...

マイクロソフトとフェイスブックが共同で人工知能ソフトウェアを開発し、グーグルの主導的地位に挑戦

マイクロソフトはすでにオープンソースの人工知能ソフトウェアを持っています。しかしここ数カ月、マイクロ...

インターネットの前半は終わり、未来は人工知能の時代へ

少し前、ロシアのプーチン大統領は「人工知能 - 21世紀の主要技術」イベントに出席した際、人工知能ロ...

AIoT: IoTと人工知能の完璧な組み合わせ

産業用 IoT は、企業の神経系と考えることができます。つまり、生産工場のあらゆる場所から貴重な情報...

OpenAI の「地震」の中心人物である Ilya を見てみましょう。彼は AI についてどう考えているのでしょうか?

OpenAIのCEOサム・アルトマン氏は先週金曜日に解雇され、もはや同社を率いていない。投資家たち...

オートメーション・エニウェア、世界初のウェブベースRPAプラットフォームを発表

RPA(ロボティック・プロセス・オートメーション)業界のリーダーであるオートメーション・エニウェアは...

...

OpenAIは「世界クラスの人材」を採用するためにロンドンに海外支社を設立すると発表

オープンAIは6月29日水曜日、ロンドンに新オフィスを設立すると発表した。これは同社にとって米国外初...

大規模言語モデルが信頼できるかどうかを評価するにはどうすればよいでしょうか? 7つの次元はここにまとめられている

実際の展開においては、大規模言語モデル(LLM)をどのように「整合」させるか、つまりモデルの振る舞い...