AIサークルが爆発した!マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

AIサークルが爆発した!マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

ビッグデータダイジェスト制作

AIサークルが爆発した! Microsoft が立ち上げた LONGNET により、Transformer のトークン処理能力が 10 億以上に拡大されました。

写真

ご存知のとおり、Transformer は短いシーケンスを理解して生成する能力を誰もが賞賛していますが、長いシーケンスに対しては常に「無力」でした。

マイクロソフトの今回の動きは、短距離走のチャンピオンにマラソンを高速で走る能力を与えるのと同じことだ。結局のところ、長いシーケンスを処理しているときでも、短いシーケンスのタスクを処理するときに優れたパフォーマンスを維持します。

LONGNET は、短いシーケンスでも損失なく、シーケンスの長さを 10 億トークン以上に拡張できる Transformer のバリアントです。

写真

これに対してネットユーザーからは「これは革命だ!」というコメントが寄せられた。

この研究は、長いシーケンスをモデル化するための新しいアイデアと可能性を提供するため、将来的には、インターネットコーパス全体をトークンとして扱うことも可能になります。同時に、より複雑な AI の相互作用が可能になることを意味します。

LONGNET カプセル化解除シーケンスの長さ

Transformer モデルは、多くの AI システムのコア アーキテクチャです。トークンで構成された情報シーケンスを処理してテキストを理解または生成します。

注: トークンは短い単語または完全な文になります。

グローバルアテンションメカニズム

グローバルアテンションはトランスフォーマーの理解能力の鍵であり、1 つのトークンが他のすべてのトークンと「相互作用」できるようにします。シーケンスが長くなると、相互作用の数は指数関数的に増加し、計算の複雑さが大幅に増加します。

上記の段落は少し抽象的なので、説明させてください。部屋にいる各人と個別に会話をしようとしているところを想像してください。人数が少なければ、これは管理可能です。しかし、人数が増えるにつれて、すぐに耐えられなくなってしまいました。

ChatGPT は OpenAI によって Transformer に基づいて開発されました。文脈的な会話に使用すると、以前に言ったことを「忘れてしまう」ことがよくあります。

今後、LONGNET を使用すると、ChatGPT の無制限の会話機能が解除され、最初の質問が記憶されます。

LONGNETの核心:注目の力を拡大する


写真

LONGNET に関するこの研究で、Microsoft の研究者は Transformer モデルに「拡張注意」と呼ばれる新しい概念を導入し、モデルがシーケンスを処理する方法を根本的に変えました。

拡張注意の優れた点は、すべてのシーケンスが他のすべてのシーケンスと相互作用することなく、距離が増加するにつれてより多くのトークンに焦点を合わせることができることです。

群衆の中にいるとき、近くにいる人や遠くにいる人に注意を払うことはできますが、一人一人と個別に話す必要はありません。

図 1: LONGNET で使用される拡張注意の構成要素。短期および長期の依存関係をモデル化するためのさまざまな注意モードが含まれています。注意パターンの数は、シーケンスの長さに応じて調整できます。

これはスパースアテンションモデルと非常に似ていますが、セグメントツリーの考え方を借用しています。シーケンスの長さに応じて指数関数的に増加する相互作用の数を線形増加にすることができます。つまり、シーケンスが長くなるにつれて、計算量の増加がより管理しやすくなります。

注意を拡張すると、LONGNET の効率が向上するだけでなく、柔軟性も向上します。すべてのシーケンスと対話する必要がないため、タスクに応じてフォーカスを調整することもできます。これにより、短いシーケンスと長いシーケンスの両方の処理に効果的です。

LONGNET は一般的な言語タスクでも優れたパフォーマンスを発揮します。つまり、これは長いシーケンスに特化したツールであるだけでなく、多くのタスクを処理できる堅牢で柔軟なモデルでもあるということです。


図のキャプション: さまざまな方法間の計算の複雑さの比較。 N はシーケンスの長さ、d は隠れ層の次元です。

さらに、研究者らは LONGNET を従来の Transformer および Sparse Transformer と比較しました。比較のために、これらのモデルのシーケンス長を 2,000 トークン (2K) から 32,000 トークン (32K) に拡張しました。公平な比較を確実にするために、各モデルのパラメータを調整しました。ある程度の計算上の制限があるにもかかわらず、実験結果は依然として非常に印象的です。

同時に、モデルパラメータは 1 億 2000 万から 27 億に増加しました。LongNet の計算の複雑さが増すにつれて、テスト セットの PPL も減少しました。これは、LongNet もスケーリング則を満たしていることを示しています。より大きな言語モデルをトレーニングすると、パフォーマンスが向上する可能性があります。

LONGNET には制限がないわけではありません。たとえば、拡張アテンション メカニズムにより計算の複雑さが標準の Transformer モデルよりも低いレベルにまで軽減されますが、10 億を超えるトークンのシーケンスを処理するには依然として多くのリソースが必要です。さらに、パフォーマンスは優れていますが、さらにテストと検証が必要になる場合があります。

Microsoft は、LONGNET の将来の研究方向として、「拡張された注意メカニズムをさらに最適化するにはどうすればよいか」も提案しました。拡張注意を補完できる他のシーケンス処理技術はありますか? LONGNET を既存の AI システム (ChatGPT など) に効果的に統合するにはどうすればよいですか?

論文の宛先:

https://arxiv.org/abs/2307.02486

参考文献:

https://thetechpencil.com/revolutionizing-ai-with-longnet-microsoft-breakthrough-in-handling-billion-token-sequences-59b05ef7d6e8 翻訳:

https://mp.weixin.qq.com/s/Qns4Oi8-YHWb7WP3_gGZUA

<<:  最高年収は約56万! 2023年の最新のAIGC雇用動向レポートが発表されました

>>:  Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

顔認識の急速な発展は落ち着くはずだ

[[283549]] Xipo/Textいつから始まったのかは分かりませんが、顔認証が普及し、「顔認...

Safetensors は、高速、効率的、安全、使いやすい新しいディープラーニングツールです。

Safetensor とは何ですか? 【セーフテンソル】:https://huggingface....

ニューロンクラスタリングはAIの学習戦略をシミュレートできる

人間や機械がタスクをよりうまく実行できるようになるたびに、証拠の痕跡が残ります。パフォーマンス向上の...

マイクロソフト、AIアシスタントCopilotを搭載したWindows 11のメジャーアップデートをリリース

11月1日(米国時間火曜日)、ソフトウェア大手マイクロソフトは、パソコン用OS「Windows 11...

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました!

編纂者:王睿平校正 | Yan Zheng著作権侵害、プライバシー侵害、度重なる訴訟により、Chat...

...

「機械代替」がもたらす技術的失業危機をどう見るか

[[376593]] 1月18日の光明日報によると、近年、中国の製造業は「機械が人間に取って代わる」...

女の子があなたを好きかどうか知りたいですか?ハーバード大学の10代のAIがチャット記録に基づいて恋愛の確率を計算

[[279803]] △『小林さんちのメイドラゴン』よりこの記事はAI新メディアQuantum Bi...

Google と OpenAI の新しい研究: ダーウィンの進化論を人工知能アルゴリズムの設計にどのように活用するか?

現代の機械知能は自然を模倣することに基づいています。この分野の主な目標は、人間が生物学的に持つ強力な...

中国科学技術大学が提案したCNNとTransformerのデュアルネットワークモデルの精度は84.1%にも達する

[[416636]] Transformer と CNN はどちらも独自の利点を持ち、視覚表現を処理...

Google AIが既知のタンパク質配列の10%を一度に注釈付け、10年で人間の研究成果を上回る

タンパク質は人体のすべての細胞と組織の重要な構成要素です。体のすべての重要な成分にはタンパク質が必要...

...

...

...

Dynalang - 言語を使って世界のモデルを学習する新しいAIテクノロジー

翻訳者|朱 仙中レビュー | Chonglou導入この記事は、人工知能に関する最新の研究に関する当社...