画像認識がより正確になりました！楊有氏のチームの最新研究：新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。

従来のニューラルネットワークでは機能と計算能力が固定されており、異なる入力を処理するために同じ数の FLOP が使用されます。

しかし、適応型および動的計算を備えたモデルでは、入力の複雑さに基づいて、各入力の処理に割り当てられる計算予算が調整されます。

ニューラルネットワークにおける適応型コンピューティングが魅力的な理由は 2 つあります。

まず、適応メカニズムの導入により、いくつかの困難なタスクを解決する上で重要な役割を果たすことができる帰納的バイアスが提供されます。

たとえば、さまざまな深さの階層をモデル化する必要がある算術問題を解決するには、さまざまな入力に対して異なる数の計算ステップを有効にすることが重要です。

第二に、動的計算によって柔軟性が高まり、実践者が推論コストを調整できるようになります。

Google チームが発表した論文では、適応型コンピューティングの新しいモデルである AdaTape が紹介されました。

論文アドレス: https://arxiv.org/pdf/2301.13195.pdf

最新モデルは、動的テープトークンと適応型テープ読み取りアルゴリズムを使用して入力シーケンスを生成するトランスバーターアーキテクチャに基づいており、画像認識タスクのパフォーマンスを向上させることができます。

AdaTape は、適応型テープ読み取りメカニズムを使用して、入力の複雑さに応じて各入力に追加するテープトークンの数を決定します。

AdaTape は実装が非常に簡単で、必要に応じて精度を向上させる効率的なノブを提供します。

AdaTape は、モデルの深さではなく入力シーケンスに直接適応性を注入するため、他の適応ベースラインと比較してより効率的です。

最後に、Adatape は、品質とコストのトレードオフを維持しながら、画像分類などの標準タスクやアルゴリズムタスクでより優れたパフォーマンスを提供します。

弾性入力シーケンスの適応計算

AdaTape は、適応型関数タイプと動的計算予算を使用します。

具体的には、トークン化後の入力シーケンスのバッチに対して、AdaTape は各入力を表すベクトルを使用して、可変サイズのテープトークンシーケンスを動的に選択します。

AdaTape は、「テープバンク」と呼ばれるトークンライブラリを使用して、適応型テープ読み取りメカニズムを通じてモデルと対話するすべての候補テープトークンを保存します。

研究者らは、テープライブラリを作成するための 2 つの異なるアプローチ、つまり入力駆動型ライブラリと学習可能なライブラリについて説明しています。

入力駆動型ライブラリの全体的な考え方は、入力からトークンライブラリのセットを抽出し、元のモデルトークナイザーとは異なる方法を使用して、元の入力を一連の入力トークンシーケンスにマッピングすることです。

これにより、さまざまな画像解像度を使用して取得された入力情報に動的にオンデマンドでアクセスできるようになります。

AdaTape の全体的なアーキテクチャ

場合によっては、異なる抽象化レベルでのトークン化が不可能なため、入力駆動型テープライブラリは実現不可能です。

たとえば、グラフトランスフォーマー内の各ノードをさらに分割することが困難な場合などです。

この問題に対処するために、AdaTape は、トレーニング可能なベクトルのセットをテープトークンとして使用してテープライブラリを生成する、より一般的なアプローチを提供します。

このアプローチは「学習可能なリポジトリ」と呼ばれ、モデルが入力例の複雑さに基づいてトークンを動的に取得できる埋め込みレイヤーとして見ることができます。

学習可能なライブラリにより、AdaTape はより柔軟なテープライブラリを生成できるようになり、各入力例の複雑さに基づいて計算予算を動的に調整できるようになります。

たとえば、より複雑な例では、リポジトリからより多くのトークンが取得されます。これにより、モデルはリポジトリに保存されている知識を使用するだけでなく、入力が大きくなるため、それを処理するためにより多くの FLOP を費やすことになります。

最後に、選択されたテープトークンが元の入力に追加され、次の Transformer レイヤーに送られます。

各トランスフォーマーレイヤーでは、すべての入力とテープトークンに同じマルチヘッドアテンションが使用されます。

ただし、2 つの異なるフィードフォワードネットワーク (FFN) が使用されます。1 つは元の入力からのすべてのトークン用で、もう 1 つはすべてのテープトークン用です。

研究者たちは、入力トークンとテープトークンに別々のフィードフォワードネットワークを使用することで、品質がわずかに向上することを観察しました。

誘導バイアス

標準のトランスフォーマーにとって非常に困難なタスクであるパリティに基づいて AdaTape を評価し、AdaTape の誘導バイアスの影響を調査します。

パリティタスクでは、1、0、-1 のシーケンスが与えられた場合、モデルはシーケンス内の 1 の数の均一性または特異性を予測する必要があります。

パリティチェックは周期的な正規言語ですが、驚くべきことに、このタスクは標準の Transformer では解決できません。

パリティタスクの評価

短くて単純なシーケンスで評価されているにもかかわらず、標準 Transformer と Generalized Transformer はどちらもモデル内でカウンターを維持できないため、パリティタスクを実行できません。

ただし、AdaTape は、入力選択メカニズムに軽量の再帰を組み込んでおり、暗黙的にカウンターを維持できる誘導バイアスを提供しているため、すべてのベースラインよりも優れています。これは、標準の Transformer では不可能です。

画像分類評価

画像分類タスクのために、研究者らは ImageNet-1K で AdaTape をゼロからトレーニングしました。

下の図は、AdaTape とベースラインメソッド (A-ViT および Universal Transformer ViT (UViT および U2T) を含む) の精度と速度 (コードごとに 1 秒あたりに処理される画像の数で測定) を示しています。

AdaTape は、品質とコストのトレードオフの点で、他の適応型トランスフォーマーベースラインよりも大幅に優れたパフォーマンスを発揮します。

効率の点では、より大きな AdaTape モデル (パラメータ数の観点から) の方が、より小さなベースラインよりも高速です。

ImageNet でゼロからトレーニングして AdaTape を評価する

このような結果は、適応型モデルのディープアーキテクチャは TPU などの多くのアクセラレータには適していないという以前の研究結果と一致しています。

AdaTape 行動研究

研究者らは、パリティタスクと ImageNet-1K でのパフォーマンスのテストに加えて、入力駆動型ライブラリのトークン選択動作を使用して、JFT-300M 検証セットで AdaTape も評価しました。

モデルの動作をよりよく理解するために、入力駆動型ライブラリのトークン選択結果はヒートマップとして視覚化されます。明るい色は位置がより頻繁に選択されることを意味します。

ヒートマップは、AdaTape が中央のパッチをより頻繁に選択していることを示しています。

これは、中央のパッチの方が通常はより情報量が多いため、事前の知識とも一致しています。

これは、主なオブジェクトが画像の中央に配置されている自然画像データセットのコンテキストでは特に当てはまります。

この結果は、より有益なパッチを効果的に識別して優先順位を付け、パフォーマンスを向上できる AdaTape のインテリジェンスを強調しています。

AdaTape-B/32 (左) と AdaTape-B/16 (右) のテープトークン選択ヒートマップの視覚化

AdaTape は、適応型テープ読み取りメカニズムによって生成される柔軟なシーケンス長を特徴としています。

これにより、新しい誘導バイアスも導入され、AdaTape は標準トランスフォーマーと既存の適応型トランスフォーマーの両方にとって困難なタスクを解決できるようになる可能性があります。

画像認識ベンチマークに関する包括的な実験を通じて、計算が一定に保たれている場合、AdaTape が標準および適応型トランスフォーマーよりも優れていることを実証しました。

著者について

ユー・ヤン氏は現在、シンガポール国立大学の学長若手教授です。

2021年4月、フォーブスアジア30歳以下リストに選出。彼は清華大学でコンピュータサイエンスの修士号を取得し、カリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得しました。

<<:

>>: Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた！ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

ブログ

自動運転の 3 つの大きな問題点、つまり安全性に直接対処しますか?プレミアム？プライバシー漏洩？

画像認識がより正確になりました！楊有氏のチームの最新研究：新しい適応型コンピューティングモデル「AdaTape」

弾性入力シーケンスの適応計算

著者について

自動運転の 3 つの大きな問題点、つまり安全性に直接対処しますか?プレミアム？プライバシー漏洩？

機械学習の参入障壁が下がり、機械学習エンジニアのポジションがなくなる可能性も

2026年までにIoT分野のAIサービス収益は36億ドルに達する

無料の Python 機械学習コースパート 4: ロジスティック回帰アルゴリズム

私の国は自動運転のための最初の閉鎖された高速道路テスト環境を構築しました

GitHubで3,000以上のいいねを獲得した「機械学習ロードマップ」は、モンスターをアップグレードして倒す方法を教えてくれる

この記事では人工知能とは何かを徹底的に解説します！

推薦する

PyTorch を軽量化します。このディープラーニングフレームワークは価値があります。 GitHub 6.6k スター

GPT+Copilotを使えば、Rustの学習はすぐに始まります

今後のブロックチェーンの3大発展トレンド。2018年には不人気になるのか？

将来的には配送車両の80%が自動運転技術を使用する

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

深い思考：テイクアウトの背後にある人工知能アルゴリズムの秘密

コードを1行変更するだけで、PyTorchのトレーニングを3倍高速化できます。これらの「高度なテクニック」が鍵となります。

AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

性質：大きなモデルは役割を演じているだけで、実際には自己認識を持っていない

インテリジェントなデザインの4台の馬車が牽引する蘇寧木牛のクリエイティブな共有

オペレーティングシステムに関して、一般的に使用されているスケジューリングアルゴリズムをいくつ知っていますか?

推奨に値する 7 つの優れたオープンソース AI ライブラリ