Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

[[318598]]

Google は最近、24 個の合理化された BERT モデルをダウンロード用にリリースし、ホワイトバレンタインデーを前に NLP 研究者に素晴らしい贈り物を提供しました。

BERT はモデルが大きいため勝利しますが、モデルが大きいため敗北もします。
BERT が最初にリリースされたとき、「11 の記録を破る」という大看板を掲げ、圧倒的なパラメータ数でブレイクしました。 BERT の成功は、その大規模なモデルにあると言えます。しかし、一方では、その規模が BERT の成功につながっていますが、他方では、より広範な適用の障害にもなっており、それは 3 つの側面に反映されています。

障害1: リソースの占有

サイズが大きいため、膨大なストレージリソースを占有する必要があり、大量のストレージリソースを維持しながら大量のエネルギーも消費します。

障害2: 時間がかかりすぎる

BERT の作者である Jacob 氏はかつて、「BERT-Large モデルには 24 のレイヤーと 2014 の隠れユニットがあります。33 億語のデータセットで 40 エポックのトレーニングが必要であり、8 つの P100 では 1 年かかる可能性があります」と述べています。

障害3: コストが高い

かつて誰かが、3 つの主要な主流モデルのトレーニングコストはおよそ次のようになると計算しました。

BERT: 12,000ドル
GPT-2: 43,000ドル
XLネット: 61,000ドル

上記の問題を解決するために、BERTの簡易版が次々と登場している。

サイズは重要です。実は、上記 3 つの問題の原因はサイズにあるため、誰もが BERT の簡易版を継続的に研究し始めました。リソースが限られている場合、小型モデルには明らかな利点があります。

DistillBERT: BERT に基づく知識蒸留テクノロジーを使用して Hugging Face チームによってトレーニングされた小型 BERT。モデルサイズは40%（66M）削減され、推論速度は60%向上しましたが、パフォーマンスは約3%しか低下しませんでした。

ALBERT: モデルアーキテクチャを変更することで、サイズが大幅に削減されます。最小の ALBERT はわずか 12M、最大の ALBERT-XXLarge は 233M、BERT-Base は 110M です。しかし、サイズは縮小されたにもかかわらず、推論速度は大幅に向上しませんでした。

TinyBERT: 知識蒸留を使用してモデルを圧縮します。このモデルは華中科技大学とHuaweiが共同で制作しました。

Google が小型の BERT モデルをリリース

ちょうど昨日、Google は BERT GitHub リポジトリを更新し、英語の語彙に限定され大文字と小文字を区別しない 24 個の小規模な BERT モデルをリリースしました。

24 のモデルは WordPiece マスキングを使用してトレーニングされ、MLM 損失で直接事前トレーニングされており、標準トレーニングまたは最終タスク蒸留を介して下流のタスクに合わせて微調整できるため、MLM 蒸留のより洗練された事前トレーニング戦略よりも優れています。

理論的なガイダンスは、「読書量の多い学生はよりよく学ぶ: コンパクトモデルの事前トレーニングの重要性について」という論文から得られます。論文アドレス: https://arxiv.org/abs/1908.08962

小さな BERT モデルは、元の BERT 微調整方法に従って微調整するだけで済みますが、より大規模で正確な教師によって知識が抽出されると最も効果的です。

このリリースの BERT-Base モデルは、完全性のみを目的として、元のモデルと同じ条件で再トレーニングされていることに注意することが重要です。

GLUEスコア:

24 個の小さな BERT のダウンロードアドレス: https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip

<<: ナレッジグラフは銀行のビジネスモデルをどのように変えるのでしょうか?

>>: 機械学習エンジニアとデータサイエンティストの違い

IDC: 生成型 AI への支出は今後 5 年間で年間 73% 増加し、2027 年には 1,430 億ドルに達する

ブログ

人工知能の次の段階として、なぜインターネットの巨人に期待すべきなのでしょうか?

ブログ

Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

上記の問題を解決するために、BERTの簡易版が次々と登場している。

Google が小型の BERT モデルをリリース

IDC: 生成型 AI への支出は今後 5 年間で年間 73% 増加し、2027 年には 1,430 億ドルに達する

ビジュアル高精度マップ構築を徹底レビュー！画像のない認識の実装ソリューションを見てみましょう（清華大学と滴滴出行）

IBMはGPUを使用して機械学習の効率を10倍向上させる

ロボティック・プロセス・オートメーションは大きな問題でしょうか?

マイクロソフトがCopilot for Financeをリリース、AIでスプレッドシートに革命を起こすことを目指す

競争が激化する中、ドローン配達の時代はいつ来るのでしょうか？

新しいインテリジェント顔認識温度測定システムソリューション

人工知能の次の段階として、なぜインターネットの巨人に期待すべきなのでしょうか?

推薦する

機械学習ツールボックスには6つの重要なアルゴリズムが隠されています

Nokelockの「1+2」戦略は、スマートロックを商業利用の新時代へと導きます

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

放送・ホスティング業界における人工知能の限界についての簡単な分析

TransformerはAI分野を支配するのでしょうか？結論を出すのは時期尚早だ

業界大手がIoTとAIを成功裏に導入するための3つのステップ

機械学習を理解するには、「3つの魔法の武器」を理解するだけで十分です

2D ガールジェネレーター、駆動可能なニューラルネットワーク... 2019 年の優れた機械学習プロジェクト 17 選

4Kウィンドウの長さで長いテキストを読むことができ、陳丹奇の弟子がMetaと提携して、大規模なモデルでメモリを強化する新しい方法を立ち上げました

人工知能はブロックチェーンにどのような影響を与えるのでしょうか?

Facebook がアルゴリズムコードライブラリ PySlowFast をオープンソース化、最先端のビデオ理解モデルを簡単に再現

サム・アルトマンが、アップルの伝説的デザイナーやソフトバンクの孫正義氏と秘密裏に接触していたことが明らかに！ OpenAIの評価額は900億ドルに達し、新しいAIハードウェアが開発中