PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle LLMコンペティションのLLM Science Examで4位になったのはDebertaのみを使用したということで、非常に優秀な成績だと言えます。そのため、特定の分野やニーズでは、大規模な言語モデルが必ずしも最適なソリューションとは限らず、「小規模」なモデルにも適した場所があります。そこで本日は、ドメイン固有のコーパスを使用して BERT をゼロから事前トレーニングする PubMedBERT を紹介します。これは、2022 年に Microsoft Research が ACM で発表した論文です。

論文の主なポイントは次のとおりです。

バイオメディカルなど、ラベルのないテキストが大量に含まれる特定のドメインの場合、言語モデルを最初から事前トレーニングする方が、一般ドメインの言語モデルを継続的に事前トレーニングするよりも大幅に効果的です。生物医学言語理解および推論ベンチマーク (BLURB) は、ドメイン固有の事前トレーニング用に提案されています。

パブメドバート

1. 特定分野の事前トレーニング

最初からドメイン固有の事前トレーニングを行うと、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れていることが示され、混合ドメインの事前トレーニングをサポートする一般的な仮定が常に当てはまるわけではないことが示唆されています。

2. モデル

BERT を使用します。マスク言語モデル (MLM) の場合、単語全体のマスキング (WWM) では、単語全体をマスクする必要があります。

3. BLURBデータセット

著者らによると、BLUE[45]はバイオメディカル分野でNLPベンチマークを作成する最初の試みである。しかし、BLUE のカバー範囲は限られています。 PubMed に基づく生物医学アプリケーション向けに、著者らは生物医学言語理解および推論ベンチマーク (BLURB) を提案しました。

PubMedBERT は、より大きなドメイン固有のコーパス (21GB) を使用します。

結果

PubMedBERT は、ほとんどの生物医学 NLP タスクにおいて、他のすべての BERT モデルを一貫して上回り、多くの場合、大幅な差をつけて優れています。

<<: 

>>:  LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習の神話を暴く - 機械学習に関する一般的な神話はどこから来たのか?

機械学習について多くの誤解を持っていると、その人のキャリアや評判に悪影響を与える可能性があります。 ...

ルカン氏と彼のポスドク研究員はarxivに論文を発表したが、redditのネットユーザーから「最初の写真は間違っている」と疑問視された。

ニューラル ネットワーク モデルのトレーニングの最大の欠点は、大量のトレーニング データが必要になる...

AI時代に私たちは子供たちに何を教えるべきでしょうか?

私たちの子供たちが今後20年、30年でどのような仕事に就くことになるのかを予測するのは本当に難しいこ...

...

清華大学:過去10年間の人工知能の発展の概要:中国は急速な進歩を遂げ、その特許は世界の70%を占める

1. 急速な発展の10年1. 論文の発表状況<br /> 人工知能は過去10年間で急速に...

...

人工知能の開発を加速するための9つのヒント

現在、多くの企業が AI テクノロジーで一定の成功を収めており、IT チームは AI プロジェクトを...

15人の専門家が予測:AIは2024年にサイバーセキュリティのルールを変える

AI技術の飛躍的な発展に伴い、攻撃者はAIの武器化を加速させ、ソーシャルエンジニアリング技術と組み合...

GraphAlign: グラフマッチングによるマルチモーダル 3D オブジェクト検出のための正確な特徴アライメント

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

顔認識アルゴリズムはどのように機能するのでしょうか?

過去 10 年間で、ディープラーニングの分野では多くの高度な新しいアルゴリズムと画期的な研究が登場し...

オックスフォード大学の最新調査:AIはベンチマーク危機に直面し、NLPは推論テストの「取り組み」に注力

人工知能 (AI) ベンチマークは、モデルを測定および比較するための方法を提供します。ベンチマークを...

感情コンピューティングは人間とコンピュータの相互作用の中核となるのでしょうか?感情分析におけるディープラーニングの応用について

人間とコンピュータの相互作用における感情コンピューティングの役割感情コンピューティングについて話す前...

TensorFlow2020: Tensorflow.js を使用してコンピューター ビジョン アプリケーションを実行する方法は?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

中国自動車工程協会と国家インテリジェントコネクテッドビークルイノベーションセンターは、「2021年第...

AIが物流とサプライチェーン管理をどう変えるか

今日の急速に変化し、ますますグローバル化が進む世界では、物流およびサプライ チェーン業界は、世界中で...