画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

画像認識がより正確になりました!楊有氏のチームの最新研究:新しい適応型コンピューティングモデル「AdaTape」

適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。

従来のニューラル ネットワークでは機能と計算能力が固定されており、異なる入力を処理するために同じ数の FLOP が使用されます。

しかし、適応型および動的計算を備えたモデルでは、入力の複雑さに基づいて、各入力の処理に割り当てられる計算予算が調整されます。

ニューラル ネットワークにおける適応型コンピューティングが魅力的な理由は 2 つあります。

まず、適応メカニズムの導入により、いくつかの困難なタスクを解決する上で重要な役割を果たすことができる帰納的バイアスが提供されます。

たとえば、さまざまな深さの階層をモデル化する必要がある算術問題を解決するには、さまざまな入力に対して異なる数の計算ステップを有効にすることが重要です。

第二に、動的計算によって柔軟性が高まり、実践者が推論コストを調整できるようになります。

Google チームが発表した論文では、適応型コンピューティングの新しいモデルである AdaTape が紹介されました。

論文アドレス: https://arxiv.org/pdf/2301.13195.pdf

最新モデルは、動的テープ トークンと適応型テープ読み取りアルゴリズムを使用して入力シーケンスを生成するトランスバーター アーキテクチャに基づいており、画像認識タスクのパフォーマンスを向上させることができます。

AdaTape は、適応型テープ読み取りメカニズムを使用して、入力の複雑さに応じて各入力に追加するテープ トークンの数を決定します。

AdaTape は実装が非常に簡単で、必要に応じて精度を向上させる効率的なノブを提供します。

AdaTape は、モデルの深さではなく入力シーケンスに直接適応性を注入するため、他の適応ベースラインと比較してより効率的です。

最後に、Adatape は、品質とコストのトレードオフを維持しながら、画像分類などの標準タスクやアルゴリズム タスクでより優れたパフォーマンスを提供します。

弾性入力シーケンスの適応計算

AdaTape は、適応型関数タイプと動的計算予算を使用します。

具体的には、トークン化後の入力シーケンスのバッチに対して、AdaTape は各入力を表すベクトルを使用して、可変サイズのテープ トークン シーケンスを動的に選択します。

AdaTape は、「テープ バンク」と呼ばれるトークン ライブラリを使用して、適応型テープ読み取りメカニズムを通じてモデルと対話するすべての候補テープ トークンを保存します。

研究者らは、テープ ライブラリを作成するための 2 つの異なるアプローチ、つまり入力駆動型ライブラリと学習可能なライブラリについて説明しています。

入力駆動型ライブラリの全体的な考え方は、入力からトークン ライブラリのセットを抽出し、元のモデル トークナイザーとは異なる方法を使用して、元の入力を一連の入力トークン シーケンスにマッピングすることです。

これにより、さまざまな画像解像度を使用して取得された入力情報に動的にオンデマンドでアクセスできるようになります。

AdaTape の全体的なアーキテクチャ

場合によっては、異なる抽象化レベルでのトークン化が不可能なため、入力駆動型テープ ライブラリは実現不可能です。

たとえば、グラフトランスフォーマー内の各ノードをさらに分割することが困難な場合などです。

この問題に対処するために、AdaTape は、トレーニング可能なベクトルのセットをテープ トークンとして使用してテープ ライブラリを生成する、より一般的なアプローチを提供します。

このアプローチは「学習可能なリポジトリ」と呼ばれ、モデルが入力例の複雑さに基づいてトークンを動的に取得できる埋め込みレイヤーとして見ることができます。

学習可能なライブラリにより、AdaTape はより柔軟なテープ ライブラリを生成できるようになり、各入力例の複雑さに基づいて計算予算を動的に調整できるようになります。

たとえば、より複雑な例では、リポジトリからより多くのトークンが取得されます。これにより、モデルはリポジトリに保存されている知識を使用するだけでなく、入力が大きくなるため、それを処理するためにより多くの FLOP を費やすことになります。

最後に、選択されたテープ トークンが元の入力に追加され、次の Transformer レイヤーに送られます。

各トランスフォーマー レイヤーでは、すべての入力とテープ トークンに同じマルチヘッド アテンションが使用されます。

ただし、2 つの異なるフィードフォワード ネットワーク (FFN) が使用されます。1 つは元の入力からのすべてのトークン用で、もう 1 つはすべてのテープ トークン用です。

研究者たちは、入力トークンとテープトークンに別々のフィードフォワードネットワークを使用することで、品質がわずかに向上することを観察しました。

誘導バイアス

標準のトランスフォーマーにとって非常に困難なタスクであるパリティに基づいて AdaTape を評価し、AdaTape の誘導バイアスの影響を調査します。

パリティ タスクでは、1、0、-1 のシーケンスが与えられた場合、モデルはシーケンス内の 1 の数の均一性または特異性を予測する必要があります。

パリティ チェックは周期的な正規言語ですが、驚くべきことに、このタスクは標準の Transformer では解決できません。

パリティタスクの評価

短くて単純なシーケンスで評価されているにもかかわらず、標準 Transformer と Generalized Transformer はどちらもモデル内でカウンターを維持できないため、パリティ タスクを実行できません。

ただし、AdaTape は、入力選択メカニズムに軽量の再帰を組み込んでおり、暗黙的にカウンターを維持できる誘導バイアスを提供しているため、すべてのベースラインよりも優れています。これは、標準の Transformer では不可能です。

画像分類評価

画像分類タスクのために、研究者らは ImageNet-1K で AdaTape をゼロからトレーニングしました。

下の図は、AdaTape とベースライン メソッド (A-ViT および Universal Transformer ViT (UViT および U2T) を含む) の精度と速度 (コードごとに 1 秒あたりに処理される画像の数で測定) を示しています。

AdaTape は、品質とコストのトレードオフの点で、他の適応型トランスフォーマー ベースラインよりも大幅に優れたパフォーマンスを発揮します。

効率の点では、より大きな AdaTape モデル (パラメータ数の観点から) の方が、より小さなベースラインよりも高速です。

ImageNet でゼロからトレーニングして AdaTape を評価する

このような結果は、適応型モデルのディープ アーキテクチャは TPU などの多くのアクセラレータには適していないという以前の研究結果と一致しています。

AdaTape 行動研究

研究者らは、パリティタスクと ImageNet-1K でのパフォーマンスのテストに加えて、入力駆動型ライブラリのトークン選択動作を使用して、JFT-300M 検証セットで AdaTape も評価しました。

モデルの動作をよりよく理解するために、入力駆動型ライブラリのトークン選択結果はヒートマップとして視覚化されます。明るい色は位置がより頻繁に選択されることを意味します。

ヒート マップは、AdaTape が中央のパッチをより頻繁に選択していることを示しています。

これは、中央のパッチの方が通常はより情報量が多いため、事前の知識とも一致しています。

これは、主なオブジェクトが画像の中央に配置されている自然画像データセットのコンテキストでは特に当てはまります。

この結果は、より有益なパッチを効果的に識別して優先順位を付け、パフォーマンスを向上できる AdaTape のインテリジェンスを強調しています。

AdaTape-B/32 (左) と AdaTape-B/16 (右) のテープ トークン選択ヒートマップの視覚化

AdaTape は、適応型テープ読み取りメカニズムによって生成される柔軟なシーケンス長を特徴としています。

これにより、新しい誘導バイアスも導入され、AdaTape は標準トランスフォーマーと既存の適応型トランスフォーマーの両方にとって困難なタスクを解決できるようになる可能性があります。

画像認識ベンチマークに関する包括的な実験を通じて、計算が一定に保たれている場合、AdaTape が標準および適応型トランスフォーマーよりも優れていることを実証しました。

著者について

ユー・ヤン氏は現在、シンガポール国立大学の学長若手教授です。

2021年4月、フォーブスアジア30歳以下リストに選出。彼は清華大学でコンピュータサイエンスの修士号を取得し、カリフォルニア大学バークレー校でコンピュータサイエンスの博士号を取得しました。

<<: 

>>:  Midjourneyが中国のバレンタインデーのために魔法のような絵を描き、ネットユーザーを驚かせた!ローカル再描画機能が新たに開始、マスクとザッカーバーグが八角形の檻の中で戦う

ブログ    
ブログ    
ブログ    

推薦する

PyTorch を軽量化します。このディープラーニング フレームワークは価値があります。 GitHub 6.6k スター

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

GPT+Copilotを使えば、Rustの学習はすぐに始まります

みなさんこんにちは。私は漁師です。 Rust の学習曲線は初期段階と中期段階では急峻になりますが、今...

今後のブロックチェーンの3大発展トレンド。2018年には不人気になるのか?

昨日、デジタル通貨は再び全面的に急落し、ビットコインの価格は一時8,000ドルを下回りました。暗号通...

将来的には配送車両の80%が自動運転技術を使用する

[[251814]]フォード、トヨタ、グーグル、アップルなどの大企業が自動運転車に投資していることは...

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

サンフランシスコは前例のない措置として、政府による顔認識技術の使用を禁止する規則を発布した。悪者を捕...

深い思考:テイクアウトの背後にある人工知能アルゴリズムの秘密

知識の蓄積は規模の拡大をもたらし、規模の拡大は市場の集中につながります。産業が「組立ライン」の形で固...

コードを1行変更するだけで、PyTorchのトレーニングを3倍高速化できます。これらの「高度なテクニック」が鍵となります。

最近、ディープラーニング分野の著名な研究者であり、Lightning AI のチーフ人工知能教育者で...

AIが伝統的な製造業のデジタル進化を促し、国内のスマート工場は活力に満ち溢れている

モノのインターネット、ビッグデータ、人工知能などの最先端技術と伝統的な製造業の統合はますます深まり、...

ConvNet と Transformer のどちらが優れていますか? Metaが4つの主要な視覚モデルを評価、LeCunが好評価

特定のニーズに基づいてビジュアル モデルを選択するにはどうすればよいでしょうか? ConvNet/V...

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

金庸の武侠小説には両手で戦うという武術が登場します。これは周伯同が桃花島の洞窟で10年以上の厳しい修...

性質:大きなモデルは役割を演じているだけで、実際には自己認識を持っていない

大型モデルはどんどん「人間らしく」なってきていますが、本当にそうなのでしょうか?現在、Nature ...

...

インテリジェントなデザインの4台の馬車が牽引する蘇寧木牛のクリエイティブな共有

[51CTO.comより] 蘇寧木牛は蘇寧人工知能研究開発センターが設計したインテリジェントデザイン...

オペレーティング システムに関して、一般的に使用されているスケジューリング アルゴリズムをいくつ知っていますか?

オペレーティング システムには多くのスケジューリング アルゴリズムがあり、ジョブ スケジューリングに...

推奨に値する 7 つの優れたオープンソース AI ライブラリ

[[406029]] [51CTO.com クイック翻訳]人工知能 (AI) 研究の分野では、Ten...