Transformer には新しいバリアント ∞-former があります: 無限の長期メモリ、任意の長さのコンテキスト

Transformer には新しいバリアント ∞-former があります: 無限の長期メモリ、任意の長さのコンテキスト

  [[422086]]

過去数年間で、Transformer は NLP 分野全体をほぼ支配し、コンピューター ビジョンなどの他の分野にも進出しました。しかし、コンテキストの長さに応じて計算の複雑さが増し、長期記憶を効果的にモデル化することが困難になるため、長いコンテキストの処理が苦手であるなどの弱点もあります。この問題を緩和するために、さまざまな Transformer バリアントが提案されていますが、メモリ容量が限られているため、以前の情報を破棄する必要があります。

DeepMind などの研究機関の研究者らは論文の中で、∞-former と呼ばれるモデルを提案しました。これは、任意の長さのコンテキストを処理できる無限の長期記憶 (LTM) を備えた Transformer モデルです。

論文リンク: https://arxiv.org/pdf/2109.00301.pdf

長期記憶を処理するために継続的な空間注意メカニズムを活用することで、∞-former の注意の複雑さをコンテキストの長さから独立させることができます。したがって、任意の長さのコンテキストをモデル化し、固定の計算コストで「スティッキーメモリ」を維持することができます。

包括的なランキングタスクに関する実験では、∞-former が長いシーケンスからの情報を保持できることが実証されています。さらに、研究者らは、モデルをゼロからトレーニングしたり、事前トレーニング済みの言語モデルを微調整したりするなど、言語モデリングの実験を行い、無制限の長期記憶の利点を示しました。

しかし、他の多くの Transformer バリアント論文と同様に、この論文のタイトルもいくつかの苦情を引き起こしています。

∞-former: 無限の記憶を持つトランスフォーマー

モデルが長距離コンテキストを処理できるようにするために、研究者は、入力埋め込みと前のステップの隠れ状態を保存する連続 LTM を使用して元のトランスフォーマーを拡張することを提案しました。彼らはまた、トランスフォーマーXLのメモリと同様に、LTMとSTM(短期記憶)という2種類のメモリを持つ可能性も検討しました。 ∞-former の全体的なアーキテクチャを以下の図 1 に示します。

新しいモデルが無制限の LTM を実現できるようにするために、研究者は連続空間注意フレームワーク (「スパースおよび連続注意メカニズム」を参照) を使用しました。これは、メモリに適した情報単位の数 (基底関数) とこれらの単位の表現の粒度との間でトレードオフを実現します。このフレームワークでは、入力シーケンスは、ラジアル基底関数の線形結合として表現される連続信号として特徴付けられます。この表現には、2 つの大きな利点があります。1) コンテキストを N 個の基底関数で表現できます。ここで、N はコンテキスト内のトークンの数よりも小さいため、注意の複雑さが軽減されます。2) N を固定できるため、解像度は低下しますが、注意の複雑さは増加せずに、メモリ内で無限長のコンテキストを表現できます (図 2 を参照)。O(L^2 + L × N)。ここで、L はトランスフォーマー シーケンスの長さに対応します。

以前のメモリ解像度が失われる問題を軽減します。研究者らは「スティッキーメモリ」という概念を導入し、新しい LTM 信号内のより大きなスペースを以前のメモリ信号の関連領域に帰属させました。これは、重要な情報を LTM に強制的に保持するプロセスであり、脳の長期増強やシナプス可塑性と同様に、モデルが関連情報を失うことなく長いコンテキストをより適切にキャプチャできるようにします。

実験結果

∞-former が長いコンテキストをモデル化できるかどうかをテストするために、研究者はまず、長いシーケンス内でトークンを頻度順に並べ替える包括的なタスクに関する実験を実施しました。結果は次のとおりです。

図からわかるように、シーケンス長が 4000 の場合、transformerXL の精度は、圧縮トランスフォーマーや∞-former よりもわずかに高くなります。これは、transformerXL がほぼ完全なシーケンス全体をメモリ内に保持できるためです。ただし、シーケンスの長さが長くなると、transformerXL の精度は急激に低下しますが、圧縮トランスフォーマーと ∞-former の変化は少なくなります。これは、∞-former が長いシーケンスのモデリングに適していることを示唆しています。

次に、研究者たちは、1) ゼロからのモデルのトレーニング、2) 事前トレーニング済みの言語モデルの微調整など、言語モデリングの実験を実施しました。

最初の言語モデリング実験の結果を以下の表1に示します。長期記憶を使用してモデルを拡張すると、確かに困惑度の結果が改善され、スティッキー メモリを使用すると、ある程度まで困惑度を軽減できることがわかります。

2回目の言語モデリング実験の結果を以下の表2に示します。この結果は、GPT-2 に長期記憶を追加して微調整するだけで、Wikitext-103 と PG19 の両方でモデルの困惑が軽減されることを示しています。これは、∞-former が複数の用途を持つことを示しています。つまり、モデルを最初からトレーニングしたり、事前トレーニング済みのモデルを改善したりするために使用できます。

<<:  最大速度アップは20億倍! AIが物理シミュレーションエンジンに革命を起こす

>>:  セキュリティ分野におけるドローン技術応用の現状

ブログ    

推薦する

この記事を読んで人工知能を始めましょう!

今、テクノロジーの世界で最もホットなものは何ですか?答えはおそらく人工知能、機械学習、ディープラーニ...

VRシルキーパノラマはもうすぐそこ? Googleの360°NeRFは人々に未来を垣間見せる

少し前に、CVPR 2022 が今年の論文採択結果を発表しましたが、これは提出された論文がようやく沈...

ソートアルゴリズムを簡単に学ぶ: よく使われるソートアルゴリズムを視覚的に体験

1. クイックソート導入:クイックソートは、Tony Hall によって開発されたソートアルゴリズム...

ドローン自動化システムの産業への応用を探る

世界中の企業は、競合他社に対して競争上の優位性を獲得するのに役立つ高度なテクノロジーを常に探していま...

...

大きなモデルは本当にすべてを解決できるのでしょうか?知識駆動型自動運転に関する考察

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ビジュアル Transformer アーキテクチャの進歩を整理した記事: CNN と比較して、ViT が勝っているのはどこでしょうか?

注意ベースのエンコーダー/デコーダー アーキテクチャである Transformer は、自然言語処理...

...

...

Huyaは人間とシーンの分離技術を使用して、顔を覆わずにスマートな弾丸スクリーンを作成します

【元記事は51CTO.comより】 「(段)幕」という言葉はシューティングゲームから生まれたもので、...

AIに対する人々の偏見が良いことかもしれない理由

人工知能 (AI) や機械学習は人間よりも優れた能力を発揮するとよく言われますが、実際は AI や機...

AV-TESTに再び認定されました! Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる

検出能力6点!パフォーマンス消費6ポイント!使いやすさ6点!先日、国際的に権威のある評価機関 AV-...

...

AI顧客サービス指標について話す

インテリジェントな顧客サービスの評価基準は何かというビジネス上の問い合わせを頻繁に受けます。これは答...

自律型 AI エージェント: 未来の生産性エンジン

翻訳者 | 崔昊レビュー | Chonglouまとめこの記事では、タスクを自ら作成し、優先順位を付け...