GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

医用画像診断における人工知能（AI）の応用は大きな進歩を遂げました。しかし、厳密なテストがなければ、医師は人工知能の診断結果を信頼することが難しいと感じることが多い。彼らにとって、医療画像に基づいて人工知能が下した判断を理解するには、追加の認知コストが必要になります。

医療を支援する人工知能に対する医師の信頼を高めるためには、医師が必ず合格しなければならない資格試験にAIが合格するようにすることが有効な手段となるかもしれない。医師免許試験は、医師の専門知識と技能を評価するために用いられる標準化された試験であり、患者を安全かつ効果的に治療する医師の能力を測定する基礎となります。

最新の研究では、マサチューセッツ大学と復旦大学の学際的な研究者チームが、生成マルチモーダル事前トレーニング済みモデルGPT-4V（ision）を使用して、医療に関する質問への回答における人工知能の最高レベルを突破しました。この研究では、GPT-4V が米国の医師免許試験の質問、特に画像を含む質問に答える能力をテストしました。これは医療 AI システムの長年の課題です。

この研究では、GPT-4V が GPT-4 や ChatGPT などの先行モデルを上回っただけでなく、ほとんどの医学生をも上回り、人工知能を診断や臨床意思決定を支援するツールとして使用する理論的な可能性を示したことが示されました。この研究では、さまざまな医療分野における GPT-4V のパフォーマンスを分析しました。

同時に、この研究では、一貫した解釈における医療用人工知能の限界も指摘し、将来の医療診断における人間と機械の連携の重要性を強調した。

論文リンク: https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3

テスト問題集

この研究では、人工知能による医師免許試験のテストに使用された質問タイプは、さまざまな医療分野を網羅し、難易度が異なる画像を使用した多肢選択式質問でした。著者らは、米国医師免許試験 (USMLE)、米国医学生試験問題集 (AMBOSS)、診断放射線学資格コア試験 (DRQCE) から 3 セットの多肢選択式問題を選択し、合計 226 問 (28 の医療分野) を選択して GPT-4V の精度をテストしました。

AMBOSS と DRQCE のデータは非公開であり、ユーザー登録後にのみ取得できます。 AMBOSS データセット内の各質問には、対応する難易度レベルがあります。問題は難易度に応じて 5 つのレベルに分かれています。レベル 1、2、3、4、5 は、それぞれ、学生が 1 回目で正解しやすい問題の 20%、20%～50%、50%～80%、80%～95%、95%～100% を表します。

さらに、著者らは、GPT-4V の解釈が医学的常識に違反していないかどうかを評価するために、医療専門家の好みを収集しました。 GPT-4V が間違った結果を出したため、著者らは医療専門家からのフィードバックも収集し、GPT-4V を改良しました。

GPT-4V は、画像を含む米国医師免許試験 (USMLE) のテスト問題を使用してテストされました。

正確さ

結果によると、GPT-4V は画像付きの医療ライセンス試験問題で高い精度を示し、USMLE、AMBOSS、DRQCE でそれぞれ 86.2%、62.0%、73.1% に達し、ChatGPT や GPT-4 をはるかに上回りました。試験の準備をしている学生と比較すると、GPT-4V は上位 20 ～ 30% にランクされます。

2022年には、米国医師免許試験の受験者の上位約90％が試験に合格しており、GPT-4Vが合格するのは比較的容易であることを意味します。 GPT-4V の精度は、豊富な生物医学および臨床科学の知識を持ち、医師や患者が直面する問題を解決できることを反映しています。これらは医療臨床実践に臨む上で必須のスキルです。

GPT-4V は、米国医師免許試験 (USMLE) テストにおいて ChatGPT および GPT-4 をはるかに上回る成績を収めました。

GPT-4V は、プロンプトありとプロンプトなしの AMBOSS でそれぞれ 86% と 63% の精度を達成します。質問の難易度が上がるにつれて、プロンプトを使用しない場合の GPT-4V のパフォーマンスは低下します (カイ二乗検定、有意水準 0.05)。しかし、プロンプト質問を使用した場合、この下降傾向は明確には観察されませんでした。これは、医療専門家からのプロンプトが GPT-4 が正しい判断を下すのに役立つことを示唆しています。

GPT-4VとAMBOSSテストの難易度別の学生の正確さ

説明的

説明の質に関して、著者らは、GPT-4V が正しく回答した場合、医療専門家が GPT-4V による説明を好む傾向は、専門家による説明を好む傾向と類似していることを発見しました。これは、GPT-4V の説明が信頼性が高く、専門的であることを示しています。著者らはまた、GPT-4Vの説明では、回答の80％以上に質問内の画像とテキストの解釈が含まれていることを発見しました。これは、GPT-4Vがマルチモーダルデータを使用して回答を生成できることを示しています。

しかし、GPT-4V が誤った回答をした場合、画像の誤解、テキストの幻覚、推論エラーなど、説明に重大な問題もいくつかあり、GPT-4V の信頼性と解釈可能性に影響を与える可能性があります。

試験問題ごとに、医療専門家は専門家が作成した説明と GPT-4V が作成した説明のどちらかを選択しました。試験はStep1、Step2CK、Step3の3段階に分かれています。各ステージでは、50 問の質問がテスト用に選択されます。

著者らは、GPT-4V が誤って回答した説明の多くは、画像の誤解であったことを発見しました。 55 件の誤答のうち 42 件 (76.3%) は画像理解の誤りによるものでした。対照的に、テキスト幻覚と誤って判断された回答はわずか 10 件 (18.2%) でした。

画像の誤解に対処するために、著者は画像またはテキストの形式でプロンプトを使用することを推奨しています。たとえば、医師は、画像内の重要な場所を示す矢印や、画像の意味を説明する 1 つか 2 つの文章を使ってモデルに指示することができます。医師がテキストプロンプトを使用した場合、以前は間違っていた応答の 40.5% (42 件中 17 件) が GPT-4V によって修正されました。

診断支援の可能性

著者らは、GPT-4V を画像診断の補助ツールとして使用する可能性も実証しました。高血圧患者の症例報告に基づいて、医師はGPT-4Vに質問しました。定性分析の結果、GPT-4V は CT スキャン画像、臨床検査結果、患者の症状などの他の情報に基づいて鑑別診断とフォローアップ検査の推奨を提供できることが示されました。詳細な分析については原論文を参照してください。

結論と展望

著者らは、GPT-4V が画像付きの医療ライセンス試験問題で驚くべき精度を示し、臨床意思決定支援に大きな可能性を秘めていると考えています。ただし、GPT-4V が臨床シナリオに実際に適用できるようになるには、解釈の品質と信頼性をさらに向上させる必要があります。

この論文では、プロンプトを使用して GPT-4V の判断力を向上させることを試み、良好な結果を達成しています。これは、より洗練された人間と人工知能の共同システムを開発して、臨床現場でより信頼性の高いツールにする、という将来の研究の有望な方向性を示唆しています。技術の継続的な進歩と研究の深化により、AIは医療の質の向上、医師の作業負荷の軽減、医療サービスの普及促進において重要な役割を果たし続けると考えられます。

<<: ビッグモデルが明らかに：ユーザーレビューから金脈を抽出する方法

>>: 大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。