清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

世界初の大規模総合医療モデルが正式リリース:

Google Research と DeepMind が共同で作成したマルチモーダル生成モデルであるMed-PaLM Mは、臨床言語、画像、ゲノミクスを理解します。

Med-PaLM M は、すべてのタスクに同じモデル重みセットが使用されている場合、14 のテスト タスクで既存の SOTA 結果に近づくか、それを上回ります。

臨床医は、実際の胸部X線写真246枚のうち、最大40.50%のケースで、Med-PaLM Mによって生成されたレポートが専門の放射線科医によるレポートよりも受け入れられやすいことを示しており、Med-PaLM Mは単なる「紙上の話」ではなく、近い将来に臨床現場で使用できることを示しています。

Google も独自の評価を出しています。

これは、一般医療用人工知能の歴史における画期的な出来事です。

では、Med-PaLM M とは何でしょうか?

世界初の大規模総合医療モデルが登場

Med-PaLM M について正式に学ぶ前に、まず Google が独自に構築したマルチモーダル医療テスト ベンチマークMultiMedBenchについて簡単に紹介しましょう。

Google によれば、MultiMedBench が登場する以前は、市場にはこのような包括的なマルチモーダル医療ベンチマークは存在しなかったという。

このベンチマークは、12 個のオープンソース データセットと 14 個の個別タスクで構成されており、一般的なバイオメディカル AI がさまざまな臨床タスクを実行する能力を測定します。

12 のデータセットは、6 つの生物医学データ モダリティ(テキスト、放射線学 (CT、MRI、X 線)、病理学、皮膚科学、マンモグラフィー、ゲノミクス)をカバーし、14 のタスクは 5 つのタイプ(質問回答、レポート生成と要約、視覚的な質問回答、医療画像分類、ゲノム変異呼び出し) をカバーします


Med-PaLM M は、その上で微調整されています。

「M」という名前がマルチモダリティの略語であるように、Med-PaLM Mは、GoogleがこれまでリリースしてきたMed-PaLM、Med-PaLM-2などの大型医療モデルと比較して、汎用的な医療AIです。さまざまな医療の質問に答えるだけでなく、フィルムを直接見てゲノムを理解することもできます。

その基本アーキテクチャは PaLM-E (マルチモーダル言語モデル)であり、ViT 事前トレーニング済みモデルをビジュアルエンコーダーとして使用し、具体的には次の 3 つの組み合わせを実装します。

-PaLM 8B+ViT 4B(PaLM-E 12B)
-PaLM 62B+ViT 22B(PaLM-E 84B)
-PaLM 540B+ViT 22B(PaLM-E 562B)

MultiMedBench を通じて PaLM-E モデルを微調整し、それをバイオメディカル領域に適合させることで、Med-PaLM M が誕生しました。実装の詳細は次のとおりです。

(1)データセットと前処理に関しては、MultiMedBench内のすべての画像は224×224×3にサイズ変更され、元のアスペクト比を維持するために必要に応じてパディングが使用されました。

(2)Googleの目標は、統一されたモデルアーキテクチャとモデルパラメータを使用して、マルチモーダル入力による複数のタスクを実行する汎用バイオメディカルAIモデルをトレーニングすることである。これを実現するために、彼らは Med-PaLM M に、さまざまなタスクに固有の指示と、プレーンテキストの「一回限りの例」を提供しました。

以下に示す胸部 X 線画像の解釈と皮膚病変の分類のタスクに示されているように、指示は「あなたは非常に有能な放射線科助手です」で始まり、書面によるプロンプトのような雰囲気を持っています。

(3)訓練プロセス中に、著者らはPaLM-Eをエンドツーエンドで微調整した。マルチモーダル タスクでは、画像タグがテキスト タグとインターリーブされ、PALM-E モデルへのマルチモーダル コンテキスト入力が形成されます。すべての微調整タスクでは、マルチモーダル コンテキスト入力は最大 1 つの画像で構成されますが、Med-PaLM M は推論中に複数の画像を含む入力を処理できます。

14のタスクはSOTAに近いかそれを超えており、臨床的には放射線科医の40%を上回っています。

パフォーマンス評価フェーズでは、著者らは主に Med-PaLM M の「オールラウンダー」 (つまりジェネラリスト)機能、緊急対応機能、および放射線レポート生成の品質(実際の放射線科医との比較)をテストしました。

結果は次のようになります:

(1)特殊なSOTAモデルやバイオメディカルファインチューニングを行わない一般化モデル(PaLM-E 84B)と比較すると、Med-PaLM Mのパフォーマンスは、MultiMedBench上のすべてのタスク、データセット、指標の組み合わせ(合計14項目)においてSOTAに近いかそれを上回っています。

この結果は、タスク固有のカスタマイズなしで、同じモデルの重みセットを使用して達成されることに注意することが重要です。

(2)尺度実験では、Med-PaLM Mの3つの異なる尺度が様々なタスクに対して異なる効果を示した。
一見すると、純粋な言語タスクやチューニングを必要とするマルチモーダル タスクでは、モデルが大きいほど良いのですが、画像分類や胸部 X 線レポート生成タスクでは、84B の方が 562B よりもパフォーマンスが優れています。

(3)ゼロサンプル連鎖推論能力が発現する。 Med-PaLM M は、トレーニングを受けていない胸部 X 線画像でも結核を検出でき、その精度は、このタイプのデータセットに特化して最適化された最先端の結果に匹敵します。

しかし、提出された具体的な報告書には依然として具体的な誤りが含まれており、依然としていくつかの欠陥があることが示されました。

(4)放射線レポート生成テストでは、80BパラメータのMed-PaLM Mは、放射線科医が作成したレポート(臨床医が採用)よりも優れたレポートが平均40.50%ありましたが、12Bと562Bではそれぞれ平均34.05%と32.00%でした。

さらに、省略率とエラー率のテストでは、Med-PaLM M 12B および 84B モデルのレポートあたりの平均省略率が 0.12 で最も低く、次いで 562B モデルが 0.13 であることが示されました。この結果は、MIMIC-CXR に関する人間の放射線科医によるベースライン レポートと比較できます。

実用化にはどれくらい時間がかかりますか?

人類史上初の大規模総合医療モデルであるMed-PaLM Mが実用化されるまでにどれくらいの時間がかかるのかは、誰もが気になるところでしょう。

これはマイルストーンとして「自称」されているが(主に、さまざまな生物医学的タスクで SOTA に近づくかそれを超えるために一連のモデル重みに依存しているため) 、Google は、対処すべき制限がまだ多くあることも指摘した。

たとえば、高品質のテストベンチマークが不足しています。グーグルは、高品質のベンチマークだけが関連分野の進歩を大きく促進できるため、これがこれまでの一般的なバイオメディカルAIの開発における重要なボトルネックであると述べた。

しかし、現在の MultiMedBench には、単一のデータセットのサイズが限られている、モードとタスクの多様性が限られている(トランスクリプトミクスやプロテオミクスの欠如など)などの問題がまだ残っています。

たとえば、マルチモーダル AI モデルのスケーリングも困難です。

言語領域では、この操作によりパフォーマンスと緊急対応能力が大幅に向上します。しかし、Med-PaLM M に関する予備実験では、医療データの不足により、生物医学タスクの分野におけるマルチモーダル一般化モデルではこれがそれほど単純ではないことが示されました。

著者について

現在、Google は Med-PaLM M 論文のみを公開しています。

共著者は 2 人おり、そのうちの 1 人は Tao Tu という名前です。

彼は北京理工大学(2010年)で学士号を取得し、清華大学で修士号、米国コロンビア大学で博士号を取得しました。いずれも医療工学の分野です。私は Google でソフトウェア エンジニアとして約 2 年間働いています。

論文アドレス: https://arxiv.org/abs/2307.14334

<<:  韓国の常温超伝導体の著者が論文撤回を要求!論文には欠陥があり、改善された後、通常のジャーナルに移されました

>>:  北京大学のチームは、より強力な一般化とより高い生成品質を備えたDiffusionでDragGANをアップグレードしました。クリックするだけで「地面から山が立ち上がる」

ブログ    
ブログ    

推薦する

...

保険業界は人工知能をどのように活用しているのか

人工知能が保険会社、顧客、カスタマーサービススタッフにどのように役立つかを人々が理解する必要がありま...

顔認識アプリケーションにおける人工知能の利点と欠点についての簡単な説明

1950年代にチューリングの論文「ロボットは考えることができるか?」が人工知能への扉を開いて以来、人...

CTO は、企業開発のさまざまな段階で知的財産権の対応する全体像をどのように確立できるでしょうか?

最近、新しい「特許法」の全文が公布され、新たに改正された「著作権法」が公布されたことにより、国は知的...

復旦大学の論文は、3体のSFシーンを実現:体にディスプレイ画面を装着し、ナビゲートやチャットも可能

誰もが歩くディスプレイ画面であり、これは単なる SF のワンシーンではありません。羅吉が最も感動した...

9つの主要テーマ!機械学習アルゴリズム理論に関する面接の質問の要約

[[342976]]機械学習は、強力な理論的側面と実践的側面を備えた技術分野です。機械学習関連の仕事...

AIキャンパス採用プログラマーの最高給与が明らかに!テンセントは年俸80万元でトップで、北京戸口を提供している。

[[213294]]写真はインターネットからアルゴリズム関連人材の市場では、需要と供給の不均衡が深...

自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

[[211061]] STATWORX チームは最近、Google Finance API から S...

模倣学習: ロボットはプログラミングなしで自然言語を理解できます!

人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指...

AI駆動型ソフトプラスチック選別ロボットがプラスチック廃棄物危機の解決に貢献

近年、プラスチックのリサイクルは改善されてきましたが、埋め立て地に廃棄されるプラスチック廃棄物は大き...

アプリオリアルゴリズム原理の要約

[[182123]]関連付けアルゴリズムは、データ マイニングにおける重要なタイプのアルゴリズムです...

シンガポール国立大学と清華大学は、決定木向けに特別に設計され、高速かつ安全な新しい連合学習システムを共同で提案した。

フェデレーテッド ラーニングは機械学習において非常に注目されている分野であり、複数の当事者がデータを...

産業用 AI チェックリスト: 始めるための 10 ステップ

人類はもはや人工知能(AI)の波から逃れることはできない。彼らが行くところすべてで、最新の AI ソ...

AI の成功のための 10 の重要な役割

あらゆる業界でますます多くの企業がビジネス プロセスを変革するために人工知能 (AI) を導入してい...

人工知能がハイパー監視を推進

私たちは通常、監視カメラを、見方によっては私たちを監視する、あるいは私たちに代わって監視するデジタル...