PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle LLMコンペティションのLLM Science Examで4位になったのはDebertaのみを使用したということで、非常に優秀な成績だと言えます。そのため、特定の分野やニーズでは、大規模な言語モデルが必ずしも最適なソリューションとは限らず、「小規模」なモデルにも適した場所があります。そこで本日は、ドメイン固有のコーパスを使用して BERT をゼロから事前トレーニングする PubMedBERT を紹介します。これは、2022 年に Microsoft Research が ACM で発表した論文です。

論文の主なポイントは次のとおりです。

バイオメディカルなど、ラベルのないテキストが大量に含まれる特定のドメインの場合、言語モデルを最初から事前トレーニングする方が、一般ドメインの言語モデルを継続的に事前トレーニングするよりも大幅に効果的です。生物医学言語理解および推論ベンチマーク (BLURB) は、ドメイン固有の事前トレーニング用に提案されています。

パブメドバート

1. 特定分野の事前トレーニング

最初からドメイン固有の事前トレーニングを行うと、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れていることが示され、混合ドメインの事前トレーニングをサポートする一般的な仮定が常に当てはまるわけではないことが示唆されています。

2. モデル

BERT を使用します。マスク言語モデル (MLM) の場合、単語全体のマスキング (WWM) では、単語全体をマスクする必要があります。

3. BLURBデータセット

著者らによると、BLUE[45]はバイオメディカル分野でNLPベンチマークを作成する最初の試みである。しかし、BLUE のカバー範囲は限られています。 PubMed に基づく生物医学アプリケーション向けに、著者らは生物医学言語理解および推論ベンチマーク (BLURB) を提案しました。

PubMedBERT は、より大きなドメイン固有のコーパス (21GB) を使用します。

結果

PubMedBERT は、ほとんどの生物医学 NLP タスクにおいて、他のすべての BERT モデルを一貫して上回り、多くの場合、大幅な差をつけて優れています。

<<: 

>>:  LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

ブログ    
ブログ    

推薦する

これらの仕事は今後5年以内に機械に置き換えられる可能性があり、8500万人が解雇される危険にさらされている。

5G ネットワークの誕生と普及により、5G ネットワークのサポートにより、モノのインターネットの新...

テスラロボットに人間の脳意識が搭載される?マスク氏独占インタビュー:AIがミスを犯すことへの恐怖

いつも衝撃的な発言をするマスク氏がまたもや発言した。 最近、Insiderの親会社であるAxel S...

Golang GC についていくつか誤解がありますが、本当に Java アルゴリズムよりも高度なのでしょうか?

[[273650]]まず最初に強調しておきたいのは、この記事の発端は High Availabil...

研究により機械学習のバックドア問題が発見される

翻訳者 | 李睿校正:孫淑娟第三者が機械学習モデルを提供し、そこに悪意のあるバックドアを密かに埋め込...

...

都市と市民がスマートシティ技術から得られる恩恵

テクノロジーは非常に効率的かつ完璧なので、私たちはそれに気付くことすらありません。しかし、通勤時間が...

アマゾンが新しいAlexa音声アシスタントをリリース、よりスマートで自然な会話

9月21日のニュース、水曜日、アマゾンは毎年恒例の新製品発表会で、生成型人工知能技術を統合した一連の...

...

魚眼カメラと超音波センサーの融合により、鳥瞰図による近距離障害物認識を実現

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

ドローンは電力網を守り、点検や障害物の除去も可能!

[[412066]]現在、全国的に気温が上昇し続けているため、私の国では電力消費のピークの新たな波...

...

エンジニアリングだけではありません!人間の認知バイアスが原因の AI 研究における 12 の盲点

[[255272]]ビッグデータダイジェスト制作編集者: ゴウ・シャオバイ、チャン・チウユエ、アイリ...

...

人工知能を使ったチャットボットの構築方法

今日、世界は、パーソナライズされたエクスペリエンスを提供しながら、人間が重要な決定を下したり、重要な...

人工知能に関するTEDトークトップ10

この一連の講演では、人工知能 (AI) と機械学習に関する興味深い議論やセッションを「全体像」の観点...