Transformer には新しいバリアント ∞-former があります: 無限の長期メモリ、任意の長さのコンテキスト

Transformer には新しいバリアント ∞-former があります: 無限の長期メモリ、任意の長さのコンテキスト

  [[422086]]

過去数年間で、Transformer は NLP 分野全体をほぼ支配し、コンピューター ビジョンなどの他の分野にも進出しました。しかし、コンテキストの長さに応じて計算の複雑さが増し、長期記憶を効果的にモデル化することが困難になるため、長いコンテキストの処理が苦手であるなどの弱点もあります。この問題を緩和するために、さまざまな Transformer バリアントが提案されていますが、メモリ容量が限られているため、以前の情報を破棄する必要があります。

DeepMind などの研究機関の研究者らは論文の中で、∞-former と呼ばれるモデルを提案しました。これは、任意の長さのコンテキストを処理できる無限の長期記憶 (LTM) を備えた Transformer モデルです。

論文リンク: https://arxiv.org/pdf/2109.00301.pdf

長期記憶を処理するために継続的な空間注意メカニズムを活用することで、∞-former の注意の複雑さをコンテキストの長さから独立させることができます。したがって、任意の長さのコンテキストをモデル化し、固定の計算コストで「スティッキーメモリ」を維持することができます。

包括的なランキングタスクに関する実験では、∞-former が長いシーケンスからの情報を保持できることが実証されています。さらに、研究者らは、モデルをゼロからトレーニングしたり、事前トレーニング済みの言語モデルを微調整したりするなど、言語モデリングの実験を行い、無制限の長期記憶の利点を示しました。

しかし、他の多くの Transformer バリアント論文と同様に、この論文のタイトルもいくつかの苦情を引き起こしています。

∞-former: 無限の記憶を持つトランスフォーマー

モデルが長距離コンテキストを処理できるようにするために、研究者は、入力埋め込みと前のステップの隠れ状態を保存する連続 LTM を使用して元のトランスフォーマーを拡張することを提案しました。彼らはまた、トランスフォーマーXLのメモリと同様に、LTMとSTM(短期記憶)という2種類のメモリを持つ可能性も検討しました。 ∞-former の全体的なアーキテクチャを以下の図 1 に示します。

新しいモデルが無制限の LTM を実現できるようにするために、研究者は連続空間注意フレームワーク (「スパースおよび連続注意メカニズム」を参照) を使用しました。これは、メモリに適した情報単位の数 (基底関数) とこれらの単位の表現の粒度との間でトレードオフを実現します。このフレームワークでは、入力シーケンスは、ラジアル基底関数の線形結合として表現される連続信号として特徴付けられます。この表現には、2 つの大きな利点があります。1) コンテキストを N 個の基底関数で表現できます。ここで、N はコンテキスト内のトークンの数よりも小さいため、注意の複雑さが軽減されます。2) N を固定できるため、解像度は低下しますが、注意の複雑さは増加せずに、メモリ内で無限長のコンテキストを表現できます (図 2 を参照)。O(L^2 + L × N)。ここで、L はトランスフォーマー シーケンスの長さに対応します。

以前のメモリ解像度が失われる問題を軽減します。研究者らは「スティッキーメモリ」という概念を導入し、新しい LTM 信号内のより大きなスペースを以前のメモリ信号の関連領域に帰属させました。これは、重要な情報を LTM に強制的に保持するプロセスであり、脳の長期増強やシナプス可塑性と同様に、モデルが関連情報を失うことなく長いコンテキストをより適切にキャプチャできるようにします。

実験結果

∞-former が長いコンテキストをモデル化できるかどうかをテストするために、研究者はまず、長いシーケンス内でトークンを頻度順に並べ替える包括的なタスクに関する実験を実施しました。結果は次のとおりです。

図からわかるように、シーケンス長が 4000 の場合、transformerXL の精度は、圧縮トランスフォーマーや∞-former よりもわずかに高くなります。これは、transformerXL がほぼ完全なシーケンス全体をメモリ内に保持できるためです。ただし、シーケンスの長さが長くなると、transformerXL の精度は急激に低下しますが、圧縮トランスフォーマーと ∞-former の変化は少なくなります。これは、∞-former が長いシーケンスのモデリングに適していることを示唆しています。

次に、研究者たちは、1) ゼロからのモデルのトレーニング、2) 事前トレーニング済みの言語モデルの微調整など、言語モデリングの実験を実施しました。

最初の言語モデリング実験の結果を以下の表1に示します。長期記憶を使用してモデルを拡張すると、確かに困惑度の結果が改善され、スティッキー メモリを使用すると、ある程度まで困惑度を軽減できることがわかります。

2回目の言語モデリング実験の結果を以下の表2に示します。この結果は、GPT-2 に長期記憶を追加して微調整するだけで、Wikitext-103 と PG19 の両方でモデルの困惑が軽減されることを示しています。これは、∞-former が複数の用途を持つことを示しています。つまり、モデルを最初からトレーニングしたり、事前トレーニング済みのモデルを改善したりするために使用できます。

<<:  最大速度アップは20億倍! AIが物理シミュレーションエンジンに革命を起こす

>>:  セキュリティ分野におけるドローン技術応用の現状

ブログ    
ブログ    

推薦する

プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall によって開発された...

TigerGraphは、伝染病の予防と制御を完全にサポートするために、エンタープライズレベルのバージョンのライセンスを無償で公開します。

新型コロナウイルスによる肺炎の発生以来、全国の人々が不安に思っています。世界をリードするスケーラブル...

DeepMindがAIツールGNoMEをリリース、220万個の新しい結晶材料を発見したと主張

12月1日、GoogleのDeepMindは最近、Nature誌で自社のAIツールGNoMEを披露し...

人工知能、ロボット工学、そして道徳的リスク

人工知能は、産業用ロボットやロボットプロセス自動化 (RPA) における新たなアプリケーションを推進...

...

人間の世界チャンピオン3人を破り、ネイチャー誌の表紙に登場! AIドローンエクストリームレースが自動運転の新時代を切り開く

チェスや事務作業、ゲームなどの知的活動において人間が AI に圧倒されていることはもはやニュースでは...

アリの採餌とインターネットアルゴリズム

[[93484]]人間とアリの違いは何でしょうか? Ant にはインターネットがありません。創造的な...

Pytorchの核心部分である自動微分化を突破! !

こんにちは、Xiaozhuangです! PyTorch での自動微分演算に関して、この論文では Py...

2021年なのに、出会い系アプリのアルゴリズムはなぜこんなにも悪いのでしょうか?

[[407925]]ビッグデータダイジェスト制作出典: Wiredパンデミックの間、出会い系アプリ...

新しいアルゴリズムと産業チェーン市場が立ち上げられ、ArcSoft Open Platformは「技術の開放+産業のエコロジー」の新たな段階を切り開きます。

現在、業界のビジュアル AI に対する焦点は最先端技術から産業エコロジーへと移行しており、これはビ...

...

中国の科学者が色を変えることができる柔らかいロボットを開発

ああ、これはまだ私が知っているロボットですか? 「カモフラージュして色を変える」と「柔らかく変形する...

AIのために知っておくべき10のディープラーニング手法

[[211929]] AIであろうと他の分野であろうと、学習と研究の過程で、その分野の歴史を常に振り...

オペレーティング システムに関して、一般的に使用されているスケジューリング アルゴリズムをいくつ知っていますか?

オペレーティング システムには多くのスケジューリング アルゴリズムがあり、ジョブ スケジューリングに...