11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モデル「Mirasol」を紹介するプレスリリースを発表しました。 現在、AI モデルがさまざまなデータ ストリームを処理するのは困難です。AI がビデオを理解するには、ビデオ、オーディオ、テキストなどのさまざまなモダリティからの情報を統合する必要があり、難易度が大幅に高まります。 Google と Google Deepmind の研究者は、マルチモーダル理解を長い動画の領域に拡張する新しい方法を提案しました。 Mirasol AI モデルを使用して、チームは 2 つの主要な課題に対処しようとしました。
Google は Mirasol でコンバイナーと自己回帰トランスフォーマー モデルを使用します。 このモデル コンポーネントは、ビデオを個々のセグメントに分割する前に、時間同期されたビデオ信号とオーディオ信号を処理します。 トランスフォーマーは各セグメントを処理して各セグメント間の接続を学習し、次に別のトランスフォーマーがコンテキスト テキストを処理します。2 つのコンポーネントは、それぞれの入力に関する情報を交換します。 Combiner という新しい変換モジュールは、各セグメントから共通の表現を抽出し、次元削減によってデータを圧縮します。各セグメントには 4 ~ 64 フレームが含まれ、モデルには現在 30 億のパラメーターがあり、128 ~ 512 フレームのビデオを処理できます。 テストでは、Mirasol3B はビデオの問題分析において新たなベンチマークを達成し、サイズが大幅に小さくなり、より長いビデオを処理できるようになりました。メモリを組み込んだコンバイナのバリエーションを使用することで、チームは必要な計算能力をさらに 18 パーセント削減することができました。 IT Home は、ここに Mirasol の公式プレス リリースを添付します。興味のあるユーザーは、詳細を読むことができます。 |
<<: AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?
>>: ChatGPT コード生成が 10% 増加しました。北京大学中国人第一著者:プロンプトを改良し、大規模モデルのコーディング機能を大幅に改善
前回の記事では、PaddlePaddle を使用して手書きの数字を認識する例を示し、ネットワーク構造...
C# アルゴリズムは、C# 言語学習の重要な部分です。C# ソート アルゴリズムは、言語の基礎とデー...
近年、人工知能の進歩により、私たちのコミュニティの安全性は大幅に向上しました。この技術は、緊急管理者...
AI テクノロジーを悪とみなす個人、政府、企業が増えるにつれ、AI が善良な存在であることを保証する...
今日は、ビッグデータ、人工知能、認知問題の解決の関係ロジックについて話す記事を書こうと思います。した...
[[383159]]新しいテクノロジーの適用には、多くの場合、プラスの影響とマイナスの影響の両方が伴...
都市交通の分野では、AI信号制御、インテリジェントな街路交通監視、スマートバス停、スマート高速道路な...
現在、中国ではデジタル経済の波が高まっています。情報技術を都市計画や建設とどのように融合させ、都市情...
米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[375724]]開発状況近年、デジタル経済の継続的な進歩を背景に、人工知能は急速に発展し、さまざ...
調査データによると、AI 対応テクノロジーを導入して活用する準備が完全に整っている企業は世界中でわず...
ビッグデータダイジェスト制作著者: カレブ氷は地球の盾とも言え、余分な熱を宇宙に反射して地球の地層と...