清華大学唐傑チーム: NLP事前トレーニングモデルの歴史の簡単な紹介

[[422829]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

世界最大の事前トレーニングモデルを開発した WuDao チームが、事前トレーニングの概念を理解する方法を段階的に教えてくれます。

ちょうど今、清華大学のTang Jie教授とWuDaoチームが事前トレーニングモデルのレビューを発表しました。

論文全体は40ページ以上あり、大規模事前学習モデル（PTM）の過去と現在を、開発の歴史、最新のブレークスルー、将来の研究という3つの方向から包括的にレビューしています。

それでは、この論文の主な内容を見てみましょう。

事前トレーニングの歴史

この論文は事前トレーニングの開発プロセスから始まります。

初期の事前トレーニング作業は主に転移学習に焦点を当てており、その中でも特徴転移とパラメータ転移は最も広く使用されていた 2 つの事前トレーニング方法でした。

初期の教師あり事前トレーニングから現在の自己教師あり事前トレーニングまで、Transformer ベースの PTM を NLP タスクに適用することが標準的なプロセスになっています。

近年、さまざまなタスクで PTM が成功しているのは、自己教師あり事前トレーニングと Transformer の組み合わせによるものだと言えます。

以下は論文の第 3 セクションの主な内容です。

ニューラルアーキテクチャ Transformer と、Transformer に基づく 2 つのマイルストーン事前トレーニング済みモデル (BERT と GPT)。

2 つのモデルは、それぞれ自己回帰言語モデリングとオートエンコーダ言語モデリングを事前トレーニングの目的として使用します。

以降のすべての事前トレーニングモデルは、これら 2 つのモデルのバリエーションであると言えます。

たとえば、論文に掲載されているこの図には、近年モデルアーキテクチャを変更し、新しい事前トレーニングタスクを検討した多くの PTM がリストされています。

大規模事前学習モデルの最新のブレークスルー

論文のセクション 4 ～ 7 では、PTM における最新のブレークスルーを包括的にレビューします。

これらのブレークスルーは、主にコンピューティング能力の急上昇とデータ量の増加によって推進されており、次の 4 つの方向に進んでいます。

効果的なアーキテクチャの設計

セクション 4では、BERT ファミリーとそのバリアントである PTM について詳しく説明し、言語事前トレーニング用の Transformer ベースの BERT アーキテクチャはすべて、次の 2 つの目的に分類できると述べています。

統一シーケンスモデリング
認知的インスピレーション建築

さらに、現在のほとんどの研究は、自然言語理解における言語モデルのパフォーマンスを向上させるために BERT アーキテクチャを最適化することに重点を置いています。

複数のソースからのデータの活用

多くの典型的な PTM は、データホルダー、タイプ、特性が異なる複数ソースの異種データを利用します。

たとえば、多言語 PTM、マルチモーダル PTM、知識強化 PTM などです。

計算効率の向上

第 6 章では、3 つの側面から計算効率を向上させる方法を紹介します。

最初の方法はシステムレベルの最適化であり、これには単一デバイスの最適化とマルチデバイスの最適化が含まれます。

たとえば、ZeRO-Offload は、メモリスワップとデバイスの計算が可能な限り重複するように、CPU メモリと GPU メモリ間のスワップを調整するための高度な戦略を設計します。

2 番目のアプローチは、ソリューションのコストを削減するために、より効率的な事前トレーニング方法とモデルアーキテクチャを検討することです。

3 つ目は、パラメータの共有、モデルの剪定、知識の蒸留、モデルの量子化を含むモデル圧縮戦略です。

説明と理論的分析

この論文の第 7 章では、PTM の動作原理と特性について詳しく説明します。

まず、PTM によって捕捉される暗黙の知識には2 つの種類があります。

1つは言語知識であり、これは一般的に表現検出、表現分析、注意分析、生成分析の4つの方法を通じて研究されます。

もう一つは常識や事実を含む世界知識です。

この論文では、最近の関連研究の敵対的例では、PTM が深刻な堅牢性の問題を示し、同義語によって簡単に誤解され、誤った予測を行ったと指摘しました。

最後に、本論文では、PTM の構造的スパース性/モジュール性と、PTM の理論的分析における先駆的な研究についてまとめています。

今後の研究の方向性

これまで、本論文では PTM の過去と現在について概説してきました。最後のセクションでは、上記のさまざまな研究に基づいて、PTM のさらなる発展に向けた7 つの方向性を指摘しています。

アーキテクチャと事前トレーニング方法

新しいアーキテクチャ、新しい事前トレーニングタスク、迅速なチューニング、信頼性など

多言語・マルチモーダルトレーニング

より多くのモダリティ、説明、下流タスク、転移学習を含む

計算効率

データ移行、並列戦略、大規模トレーニング、パッケージング、プラグインを含む

理論的根拠

不確実性、一般化、堅牢性を含む

モデルエッジ学習

知識ベースのタスク、モデルの保存と管理を含む

認知と知識の学習

知識の強化、知識のサポート、知識の監督、認知アーキテクチャ、知識の相互作用を含む

応用

自然言語生成、対話システム、ドメイン固有のPTM、ドメイン適応、タスク適応を含む

論文の最後には、自然言語、つまり離散的な記号で表現される人間の知識とは異なり、PTM に格納されている知識は機械に優しい連続した実数値のベクトルであるとも述べられています。

チームはこれを知識モデル認識と名付け、将来的にはより効率的な方法でモデル認識を実現し、特定のタスクに対するより良い解決策を見つけたいと考えています。

詳細については、クリックして元の論文に直接アクセスしてください。

http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

<<: 我が国のドローン産業の発展の現状と課題の分析

>>: 機械学習がゲームにおける物理シミュレーションに革命をもたらす

ブログ

冬季オリンピックは人工知能産業の導入を加速し、デジタル経済の徹底的な発展を推進するだろう

ブログ

国内初の大規模模造品対策訴訟：アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

ブログ

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

ブログ

あなたの AI は規制に対応できる準備ができていますか?

ブログ

nn.Module クラスに基づく線形回帰モデルの実装

ブログ

中関村科学技術の張傑氏との対話：大規模モデルを実装するには従うべき「テクニック」がある

ブログ

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

ブログ

知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

ブログ

清華大学唐傑チーム: NLP事前トレーニングモデルの歴史の簡単な紹介

事前トレーニングの歴史

大規模事前学習モデルの最新のブレークスルー

今後の研究の方向性

冬季オリンピックは人工知能産業の導入を加速し、デジタル経済の徹底的な発展を推進するだろう

国内初の大規模模造品対策訴訟：アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

AIはサプライヤーが直面する5つの大きなリスクを軽減するのに役立ちます

あなたの AI は規制に対応できる準備ができていますか?

nn.Module クラスに基づく線形回帰モデルの実装

中関村科学技術の張傑氏との対話：大規模モデルを実装するには従うべき「テクニック」がある

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

推薦する

2024年のAIトレンド、このグラフをご覧ください、LeCun: オープンソースのビッグモデルがクローズドソースを上回る

アメリカ心理学会：AIと頻繁に接触する従業員は孤独になりやすく、病気のリスクも高まる

機械学習モデルの導入が不安ですか?ここにステップバイステップのチュートリアルがあります

AIが予測分析アプリケーションに与える影響

ニューラルネットワークにおけるBPアルゴリズムの原理とPython実装のソースコード解析

Redis に基づく分散ロックと Redlock アルゴリズム

テンセントゲームズが顔認識の範囲を拡大。未成年者のデータをどう保護するのか？

47,000 人の開発者が毎月 30,000 件の脆弱性を生み出しています。Microsoft はトラブルシューティングに AI をどのように活用しているのでしょうか?

人工知能の基礎技術は成熟し、AIは今後10年間で私の見方を完全に変えた

自然言語処理: エンタープライズ AI の新たなフロンティア

買い物客の4分の3がレジなし店舗を試してみたいと考えている

機械学習の3つの時代におけるコンピューティングのトレンド

2024年に生成AIを支援する3つのテクノロジー