この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 1. Transformersのスケーリング: 大規模言語モデルの管理性の向上近年、自然言語処理の分野は、Transformer アーキテクチャに基づく大規模なニューラル ネットワークに基づいて大きな進歩を遂げています。数年前に Reddit に大量のスパム投稿を行った Thegentlemetre アカウントは、1 週間後まで人間に発見されませんでした。実際に問題を引き起こしていたのはアプリケーションだったのです。これは、地球上で最も強力な言語モデルとして知られている GPT-3 に基づいて開発されたプログラムです。 大規模な言語モデルである GPT-3 は、人間が書いた記事と比較しても区別が難しい記事全体を作成できます。 しかし、この「スマート」モデルには欠点があります。 トレーニングには非常に費用がかかるため、誰もがこのような大規模なモデルをトレーニングするためのリソースを持っているわけではありません。 では、大規模な言語モデルを日常のニーズに合わせて管理しやすくするにはどうすればよいでしょうか? ワルシャワ大学、Google Research、OpenAI の学者たちは、新しいモデル ファミリ「Scaling Transformers」を提案しました。 論文アドレス: https://arxiv.org/abs/2111.12763 この記事では、ネットワーク内の線形層の活性化をスパース化 (フィードフォワードと Q、K、V 投影) することにより、大規模なスパース モデルをトレーニングする方法を提案します。このアプローチは、効果を発揮するためにハードウェア固有の最適化や低レベルの最適化を必要としないように見えるため、特に魅力的です。コントローラ ネットワークは、アクティブ化時にブロック単位のワンホット マスクを生成し、このマスクに基づいて後続のレイヤーの重みを動的に選択します。モデルのサイズを大きくする場合、スパース レイヤーを使用して効果的にスケーリングし、標準の Transformer モデルよりもはるかに高速に非バッチ デコードを実行します。同じ数のパラメータを使用すると、スパース レイヤーで標準の Transformer と同じ複雑性を実現できます。 2. 記事の解釈Fabio Chiusano 氏は、NLP 誌にこの論文の肯定的なレビューを発表しました。 Fabio Chiusano 氏は、Digitiamo のデータサイエンス部門の責任者であり、人工知能分野のトップ メディア ライターです。 AI Technology Reviewは、キウサノ氏のコメントを、本来の意味を変えずに編集した。 スケーリング トランスフォーマーは、モデル サイズを拡大するときに言語モデルを効率的にスケーリングし、標準のトランスフォーマーよりも高速に非バッチ デコードを実行できるため、非常に興味深いものです。厳密に言えば:
このような改善が重要でないと思われる場合は、 提案されたスパース性メカニズム (FF、QKV、FF+QKV) を備えた C4 データセットでは、スケーリング トランスフォーマーのログ パープレキシティ (約 800M のパラメーターを持つ T5 のサイズに相当) は、ベースラインの密なモデルのログ パープレキシティと似ています。 170 億のパラメータを持つ Terraformer は、高密度ベースライン モデルよりも 37 倍高速に単一のトークンをデコードし、推論には 1 トークンあたり 100 ミリ秒未満しかかかりません。ここで、注目スパース = 64、ffスパース = 256、損失スパース = 4 間引きのメリットはとても良いです。ただし、長いシーケンスをデコードする場合は、デコード時間がアテンション操作によって支配されるため、状況は悪化します。 幸いなことに、長いシーケンスに注目する LSH (Locality-Sensitive Hashing) やメモリ効率を向上させる可逆レイヤーなど、Transformer のこの問題を解決するために多くの方法が提案されています。これは決して無視できない結果だと言えるでしょう。 この論文では、トランスフォーマーの効率を向上させるために使用される他の技術の興味深い概要も提供しています。ここではその一部を抜粋して報告します。Transformer 技術の効率性に馴染みのない方にとって参考になると思います。
ただし、現在の結果にはいくつかの制限があります。それでも、この論文は持続可能な大規模モデルに向けた第一歩とみなすことができます。 どう思いますか? |
<<: インテリジェントプラットフォームを活用してビデオ監視データの津波に対処する方法
>>: アンドリュー・ン氏との独占インタビュー: 今後 10 年間の AI、ハードウェア優先からデータ優先へ
[[443145]] [51CTO.com クイック翻訳] 2022 年が近づくにつれ、人々は 20...
人工知能は現在、世界の技術競争で最もホットな話題です。我が国は人工知能の分野に多大な政策支援を行って...
最近南京で開催された2020年世界知能製造会議において、中国工程院の研究者らは、人類の発展の観点から...
SMICは最近、研究開発への投資を増やすことで14nmプロセスチップを量産し、2021年に正式に出荷...
検索リコールは検索システムの基礎として、効果向上の上限を決定します。私たちが直面している主な課題は、...
インターネットの出現と普及は、大量の情報をユーザーにもたらし、情報化時代の情報需要を満たしました。し...
自動化の一般的な定義は、機械化と電動化の最高レベルであり、つまり、機械、設備、機器はすべて、指定され...
汎用人工知能と人工知能の未来を探ります。汎用人工知能 (AGI) は、人工知能 (AI) 研究の分野...
過去 1 年間、生成型人工知能の開発におけるキーワードは「ビッグ」でした。強化学習の先駆者であるリッ...
[[218293]]はじめに:この記事では主に、アリババのリアルタイムビッグデータと関連する機械学...