Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

Google は、MLM 損失で直接事前トレーニングされた 24 個の小さな BERT モデルをリリースしました。

[[318598]]

Google は最近、24 個の合理化された BERT モデルをダウンロード用にリリースし、ホワイトバレンタインデーを前に NLP 研究者に素晴らしい贈り物を提供しました。

BERT はモデルが大きいため勝利しますが、モデルが大きいため敗北もします。
BERT が最初にリリースされたとき、「11 の記録を破る」という大看板を掲げ、圧倒的なパラメータ数でブレイクしました。 BERT の成功は、その大規模なモデルにあると言えます。しかし、一方では、その規模が BERT の成功につながっていますが、他方では、より広範な適用の障害にもなっており、それは 3 つの側面に反映されています。

障害1: リソースの占有

サイズが大きいため、膨大なストレージ リソースを占有する必要があり、大量のストレージ リソースを維持しながら大量のエネルギーも消費します。

障害2: 時間がかかりすぎる

BERT の作者である Jacob 氏はかつて、「BERT-Large モデルには 24 のレイヤーと 2014 の隠れユニットがあります。33 億語のデータセットで 40 エポックのトレーニングが必要であり、8 つの P100 では 1 年かかる可能性があります」と述べています。

障害3: コストが高い

かつて誰かが、3 つの主要な主流モデルのトレーニング コストはおよそ次のようになると計算しました。

  • BERT: 12,000ドル
  • GPT-2: 43,000ドル
  • XLネット: 61,000ドル

上記の問題を解決するために、BERTの簡易版が次々と登場している。

サイズは重要です。実は、上記 3 つの問題の原因はサイズにあるため、誰もが BERT の簡易版を継続的に研究し始めました。リソースが限られている場合、小型モデルには明らかな利点があります。

DistillBERT: BERT に基づく知識蒸留テクノロジーを使用して Hugging Face チームによってトレーニングされた小型 BERT。モデルサイズは40%(66M)削減され、推論速度は60%向上しましたが、パフォーマンスは約3%しか低下しませんでした。

ALBERT: モデル アーキテクチャを変更することで、サイズが大幅に削減されます。最小の ALBERT はわずか 12M、最大の ALBERT-XXLarge は 233M、BERT-Base は 110M です。しかし、サイズは縮小されたにもかかわらず、推論速度は大幅に向上しませんでした。

TinyBERT: 知識蒸留を使用してモデルを圧縮します。このモデルは華中科技大学とHuaweiが共同で制作しました。

Google が小型の BERT モデルをリリース

ちょうど昨日、Google は BERT GitHub リポジトリを更新し、英語の語彙に限定され大文字と小文字を区別しない 24 個の小規模な BERT モデルをリリースしました。

24 のモデルは WordPiece マスキングを使用してトレーニングされ、MLM 損失で直接事前トレーニングされており、標準トレーニングまたは最終タスク蒸留を介して下流のタスクに合わせて微調整できるため、MLM 蒸留のより洗練された事前トレーニング戦略よりも優れています。

理論的なガイダンスは、「読書量の多い学生はよりよく学ぶ: コンパクト モデルの事前トレーニングの重要性について」という論文から得られます。論文アドレス: https://arxiv.org/abs/1908.08962

小さな BERT モデルは、元の BERT 微調整方法に従って微調整するだけで済みますが、より大規模で正確な教師によって知識が抽出されると最も効果的です。

このリリースの BERT-Base モデルは、完全性のみを目的として、元のモデルと同じ条件で再トレーニングされていることに注意することが重要です。

GLUEスコア:


24 個の小さな BERT のダウンロード アドレス: https://storage.googleapis.com/bert_models/2020_02_20/all_bert_models.zip

<<:  ナレッジグラフは銀行のビジネスモデルをどのように変えるのでしょうか?

>>:  機械学習エンジニアとデータサイエンティストの違い

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

ジェネレーティブAIの力を最大限に引き出す方法

生成 AI により、機械はコンテンツを作成し、人間の行動を模倣し、創造的な仕事に貢献できるようになり...

GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

医用画像診断における人工知能(AI)の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、...

世界初の「サイボーグ」が死んだ!さようなら、ピーター 2.0

2020年、ピーター・スコット・モーガン博士はインターネットで話題になりました。人気の検索タイトル...

マイクロソフトの「Office の新時代」イベント プレビューでは AI が紹介される: 新しい描画アプリ、ゲーム フレーム レートの向上など

マイクロソフトは3月8日、北京時間3月22日午前1時にオンライン新製品発表会を開催することを決定した...

この 13 年間の深い測定学習は無駄になったのでしょうか?

おそらく、どの分野においても、頭を下げて突き進むことと同じくらい、立ち止まって考えることが大切なので...

2021年中国の人工知能産業市場規模とサブ産業の市場予測分析

人工知能は、人間による情報の統合、データの分析、機械の助けを借りた洞察の獲得のプロセスを再構築し、人...

ホライゾン・ロボティクス、中国初のオープンで使いやすいソフトウェアとハ​​ードウェアの統合ロボット開発プラットフォームを発表

2022年6月14日、エッジ人工知能コンピューティングプラットフォームの世界的リーダーであるHori...

これは機械学習ツールに関する最も包括的なハンドブックかもしれません。

[[419906]]私はこれまで、人工知能とデータサイエンスのオープンソース プロジェクトを数多く...

...

Amazon のニューラル ネットワークに関する書籍トップ 10

近年、データサイエンスとデータマイニングの人気が高まっています。ニューラルネットワークとディープラー...

電源なしで形を変えるソフトロボット「ロールボット」

海外メディアの報道によると、ハーバード大学ジョン・A・ポールソン工学・応用科学大学院(SEAS)とカ...

ロボティック プロセス オートメーション (RPA) を構築するための基本知識とベスト プラクティス

[[442548]]世界中でロボティックプロセスオートメーション (RPA) が使用され、ビジネスの...

機械学習が医療に革命を起こす

その中で、ヘルスケア業界は強力なスポンサーであり、新しいテクノロジーを積極的に導入してきました。人工...

...

AIは万能か? AI がまだ直面している課題は何ですか?

[はじめに] 人工知能(特にコンピュータビジョンの分野)に関しては、誰もがこの分野における継続的な...