この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 マルチモーダルモデルは一般的ですが、スパース化に基づくモデルが最初です。 Google の最新の成果であるLIMoE は、スパース化手法を画像とテキストのハイブリッド モデルに適用した初めての成果です。 大規模モデルのパラメータが指数関数的に増加すると、トレーニング コストも急上昇することを知っておく必要があります。 そのため、研修コストをいかに削減するかが、現在、学界が注力している重要な課題となっています。 Google が考え出した解決策は、ハードウェアで競争するのではなく、モデルそのものから始めることだった。 スパース化法を使用すると、タスクを完了するために各入力に対してネットワークの一部のみをアクティブ化する必要があります。 モデル内には多数の「エキスパート」が設定されており、各「エキスパート」は対応する部分の入力を処理するだけでよく、タスク状況に応じて必要に応じて「エキスパート」を使用することができます。 このように、モデル容量が大きくても計算コストが劇的に増加することはありません。 パフォーマンスも低下しません。 新しい手法 LIMoE は、ゼロショット学習タスクで CLIP を直接上回りました。 ネットユーザーが叫んだのも不思議ではない。
異なる「専門家」に異なるタスクを任せるディープラーニングでは、テキストと画像のタスクを同時に処理できることは珍しくありません。 しかし、過去に一般的だったマルチモーダル学習方法では、単一の入力に対してネットワーク全体をアクティブ化する必要がよくありました。 今回Googleが提案した新しい手法の最大のハイライトは、この分野で初めてスパースモデルが使用される点だ。 スパース化の方法は、モデル全体ですべての入力を処理させないことです。 ニューラル ネットワークを分割することで、ニューラル ネットワークは「特殊化」され、異なるサブモデルは固定された種類のタスクまたはデータのみを処理します。 しかし、完全に分離されているわけではなく、モデル内には共有される部分が残っています。 これを基にしたモデルがMoE (Mixture-of-Expertsレイヤー)であり、エキスパート混合モデルと呼ばれます。 つまり、Transformer アーキテクチャをベースに、「エキスパート レイヤー」が追加されます。 これは、元のフィードフォワード ネットワークを置き換える並列 FNN です。 ここでの「専門家」とは、モデル内のさまざまなサブモデルを指します。 各サブモデルは異なる入力に特化しています。 各層の専門家は、入力データに基づいて専門家をアクティブ化するゲーティング ネットワークによって制御されます。 ゲーティング ネットワークは、ラベルごとに、データを処理するために最も適切なエキスパートを選択します。 新たに提案された LIMoE により、MoE は実際に画像とテキストを同時に処理できるようになります。 具体的には、LIMoE に比較学習を行わせることです。 多数の画像とテキストのペアでトレーニングすると、ネットワーク内の画像モデルは画像表現を抽出し、テキストモデルはテキスト表現を抽出します。 同じ画像とテキストのペアの場合、モデルは画像とテキストの表現を近づけます。 逆に、異なる画像とテキストのペアの場合、対応する表現は互いに離れていきます。 これによる直接的な利点は、ゼロサンプル学習を実現できることです。 たとえば、画像の表現が「犬」というテキストの表現に近い場合、犬として分類されます。 この考え方は何千もの状況に拡張できます。 実際、CLIP と ALIGAN はどちらもこのアイデアを使用しており、ImageNet データセットでの精度はそれぞれ 76.2% と 76.4% です。 LIMoE-L/16は78.6%に達し、CLIPを上回りました。 事前トレーニングなしのLIMoE H/14は84.1%の精度を達成できます。 Googleは、LIMoEの専門家の間でも興味深い現象をいくつか発見したと述べた。 たとえば、トレーニング設定では、テキスト注釈よりも画像注釈の方がはるかに多いため、すべての専門家がタスクである程度画像を処理します。 ただ、画像を中心に処理するものもあれば、テキストを中心に処理するもの、あるいはその両方を処理するものもあります。 また、ほとんどの場合、テキスト表現を含むすべての画像パッチを処理する専門家がいます。 パフォーマンスの向上に加えて、スパース モデルを使用する利点は、計算コストの削減にも反映されます。 「マルチエキスパート」モデルでは、より多くのサブモデルが設定され、モデル容量が大幅に増加しますが、実際の計算コストはそれほど変わりません。 タスクに 1 つのサブモデルのみを使用する場合、そのコストは標準の Transformer のコストと同様になります。 たとえば、LIMoE-H/14 には合計 56 億個のパラメータがありますが、スパース化により、トークンあたり 6 億 7,500 万個のパラメータのみが使用されます。 もう一つスパース モデルは Google で常に徹底的な研究の方向となっており、MoE や GLaM を含むいくつかのモデルが提案されてきました。 この LIMoE は、Google が MoE を変更した初めてのケースではありません。 昨年6月には新しいビジュアルアーキテクチャであるV-MoEを提案し、今年はすべてのコードをオープンソース化しました。 |
>>: 合成データは AI/ML トレーニングの未来を推進するでしょうか?
今週オーストラリアのシドニーで開催されたガートナー・データ&アナリティクス・サミットで、この調査・ア...
[[421132]] [51CTO.com クイック翻訳]自然言語処理 (NLP) は、機械学習の専...
強化学習は、エージェントが環境と対話し、蓄積された報酬を最大化するために最適なアクションを選択する方...
2017年は「人工知能」が輝きました。ディープラーニング「AlphaGo」が柯潔に勝利し、無人運転...
ピクセルベースの RL アルゴリズムが復活しました。BAIR は対照学習と RL を組み合わせたアル...
将来世界に革命を起こす可能性のあるトップ10のテクノロジー1.4Dプリント[[277651]]映画の...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
[[260878]] 「当社は、個人データへのアクセスを必要としないマルチパーティデータコンピューテ...
バーチャルリアリティヘッドセットは何年も前から市場に出回っており、多くのティーンエイジャーもこれらの...
選択ソートの基本的な操作は、ソートするデータ要素から毎回最小(または最大)の要素を選択し、ソートする...
「中東のシリコンバレー」と呼ばれるイスラエルはハイテク産業が発達しており、特にチップ産業や半導体技術...
建設における AI は、設計、入札、資金調達、調達、建設、運用、資産管理、ビジネス モデルの変革など...
COVID-19が世界を席巻したとき、人工知能はなぜ大きな空白を埋めることができるのか?教育、セキュ...
AI は商業用不動産業界を変革し、あらゆるものをより効率的、アクセスしやすく、透明性の高いものにし...