ゼロショット学習がCLIPを超える！ Googleは、コンピューティングコストも削減できる初のマルチモーダルスパースモデルLIMoEを提案

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

マルチモーダルモデルは一般的ですが、スパース化に基づくモデルが最初です。

Google の最新の成果であるLIMoE は、スパース化手法を画像とテキストのハイブリッドモデルに適用した初めての成果です。

大規模モデルのパラメータが指数関数的に増加すると、トレーニングコストも急上昇することを知っておく必要があります。

そのため、研修コストをいかに削減するかが、現在、学界が注力している重要な課題となっています。

Google が考え出した解決策は、ハードウェアで競争するのではなく、モデルそのものから始めることだった。

スパース化法を使用すると、タスクを完了するために各入力に対してネットワークの一部のみをアクティブ化する必要があります。

モデル内には多数の「エキスパート」が設定されており、各「エキスパート」は対応する部分の入力を処理するだけでよく、タスク状況に応じて必要に応じて「エキスパート」を使用することができます。

このように、モデル容量が大きくても計算コストが劇的に増加することはありません。

パフォーマンスも低下しません。

新しい手法 LIMoE は、ゼロショット学習タスクで CLIP を直接上回りました。

ネットユーザーが叫んだのも不思議ではない。

あなたの API を私たちと共有してください!

異なる「専門家」に異なるタスクを任せる

ディープラーニングでは、テキストと画像のタスクを同時に処理できることは珍しくありません。

しかし、過去に一般的だったマルチモーダル学習方法では、単一の入力に対してネットワーク全体をアクティブ化する必要がよくありました。

今回Googleが提案した新しい手法の最大のハイライトは、この分野で初めてスパースモデルが使用される点だ。

スパース化の方法は、モデル全体ですべての入力を処理させないことです。

ニューラルネットワークを分割することで、ニューラルネットワークは「特殊化」され、異なるサブモデルは固定された種類のタスクまたはデータのみを処理します。

しかし、完全に分離されているわけではなく、モデル内には共有される部分が残っています。

これを基にしたモデルがMoE （Mixture-of-Expertsレイヤー）であり、エキスパート混合モデルと呼ばれます。

つまり、Transformer アーキテクチャをベースに、「エキスパートレイヤー」が追加されます。

これは、元のフィードフォワードネットワークを置き換える並列 FNN です。

ここでの「専門家」とは、モデル内のさまざまなサブモデルを指します。

各サブモデルは異なる入力に特化しています。

各層の専門家は、入力データに基づいて専門家をアクティブ化するゲーティングネットワークによって制御されます。

ゲーティングネットワークは、ラベルごとに、データを処理するために最も適切なエキスパートを選択します。

新たに提案された LIMoE により、MoE は実際に画像とテキストを同時に処理できるようになります。

具体的には、LIMoE に比較学習を行わせることです。

多数の画像とテキストのペアでトレーニングすると、ネットワーク内の画像モデルは画像表現を抽出し、テキストモデルはテキスト表現を抽出します。

同じ画像とテキストのペアの場合、モデルは画像とテキストの表現を近づけます。

逆に、異なる画像とテキストのペアの場合、対応する表現は互いに離れていきます。

これによる直接的な利点は、ゼロサンプル学習を実現できることです。

たとえば、画像の表現が「犬」というテキストの表現に近い場合、犬として分類されます。

この考え方は何千もの状況に拡張できます。

実際、CLIP と ALIGAN はどちらもこのアイデアを使用しており、ImageNet データセットでの精度はそれぞれ 76.2% と 76.4% です。

LIMoE-L/16は78.6%に達し、CLIPを上回りました。

事前トレーニングなしのLIMoE H/14は84.1%の精度を達成できます。

Googleは、LIMoEの専門家の間でも興味深い現象をいくつか発見したと述べた。

たとえば、トレーニング設定では、テキスト注釈よりも画像注釈の方がはるかに多いため、すべての専門家がタスクである程度画像を処理します。

ただ、画像を中心に処理するものもあれば、テキストを中心に処理するもの、あるいはその両方を処理するものもあります。

また、ほとんどの場合、テキスト表現を含むすべての画像パッチを処理する専門家がいます。

パフォーマンスの向上に加えて、スパースモデルを使用する利点は、計算コストの削減にも反映されます。

「マルチエキスパート」モデルでは、より多くのサブモデルが設定され、モデル容量が大幅に増加しますが、実際の計算コストはそれほど変わりません。

タスクに 1 つのサブモデルのみを使用する場合、そのコストは標準の Transformer のコストと同様になります。

たとえば、LIMoE-H/14 には合計 56 億個のパラメータがありますが、スパース化により、トークンあたり 6 億 7,500 万個のパラメータのみが使用されます。

もう一つ

スパースモデルは Google で常に徹底的な研究の方向となっており、MoE や GLaM を含むいくつかのモデルが提案されてきました。

この LIMoE は、Google が MoE を変更した初めてのケースではありません。

昨年6月には新しいビジュアルアーキテクチャであるV-MoEを提案し、今年はすべてのコードをオープンソース化しました。

<<: ローコード自動化が銀行業務をどう変えるか

>>: 合成データは AI/ML トレーニングの未来を推進するでしょうか?

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

ブログ

人工知能と人間の知能のギャップは何でしょうか?

ブログ

北京大学の研究者らは、今回AIが「平らになる」理由を発見した。それはすべてデータセットのせいだ

ブログ

Pythonで簡単な顔認識を実装すると、私はこの星にとても似ていることが判明しました

ブログ

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

ブログ

AIが5分で「3D展示」を完成させる「魔法の博物館」を制作

ブログ

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

ブログ

アルゴリズムの練習: 数独の基本解法

ブログ

ゼロショット学習がCLIPを超える！ Googleは、コンピューティングコストも削減できる初のマルチモーダルスパースモデルLIMoEを提案

異なる「専門家」に異なるタスクを任せる

もう一つ

バイナリ検索アルゴリズムと時間計算量について簡単に説明し、バイナリ検索アルゴリズムを実装する

人工知能と人間の知能のギャップは何でしょうか?

北京大学の研究者らは、今回AIが「平らになる」理由を発見した。それはすべてデータセットのせいだ

Pythonで簡単な顔認識を実装すると、私はこの星にとても似ていることが判明しました

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

AIが5分で「3D展示」を完成させる「魔法の博物館」を制作

Google のアルゴリズムが明らかに: 検索リクエストは平均 2,400 キロメートル往復移動します

アルゴリズムの練習: 数独の基本解法

推薦する

企業が人工知能を導入する際に知っておくべき5つの誤解

2,000 ドル相当のコースノートをオープンソース化しました。講演者はKaggleの元チーフサイエンティストです！

自然言語処理の商業的価値を示す5つの成功事例

2019 年の 9 つの AI トレンド、準備はできていますか?

Python 実用コード - 無限分類ツリー構造生成アルゴリズム

AIが油絵の描き方を教えます。どんなスタイルでも習得でき、ストロークのシーケンスも数秒で表示されます。

仮想通貨取引ロボットが手動取引に取って代わり、システム開発が進む

自動配送物流における人工知能の応用

Facebook、黒人男性を霊長類と認識したアルゴリズムについて謝罪

ChatGPTが公式検出ツールを削除、AIテキストは識別できないことを認める

紆余曲折の続く教育＋AI。舞台裏へのシフトは、巨大企業の拡大に向けた「新たな春」となるのか？

人工知能は「人工知能」にどれだけ「知性」を押し付けているのか

ロボットの黄金時代が来るのか？協働ロボットが主流になりつつある

Musk xAI初の研究成果公開！創立メンバーのヤン・ゲとヤオクラスの卒業生が共同で創設した