なぜ医療においてAIを信頼できないのか？データセットが小さく信頼性が低いため、AI医療にはまだまだ課題がある

近年、医療診断における AI の応用がますます注目されており、薬物スクリーニングや AI 診断など、いくつかの実用的な応用シナリオが登場しています。しかし、AI による正確な医療診断は難しいようです。その理由は何でしょうか? この記事では、AI による医療診断に関する独自の洞察を探り、まとめます。

[[392053]]

近年登場した新しい分野として、AIと医療の融合は大きな発展の可能性を秘めています。医療用のAIアルゴリズムは次々と登場しています。この分野には将来性を感じていますが、いくつかの問題点も発見されています。

たとえば、医師がCOVID-19の潜在的な患者をスクリーニングするのを支援するために、AI分野の研究者は、胸部X線やCT画像に基づいてCOVID-19を迅速かつ正確に検出および予測するさまざまな機械学習アルゴリズムを開発しました。しかし、ケンブリッジ大学の研究により、これらのアルゴリズムには重大な欠陥と偏りがあり、実際の臨床応用には使用できないことが判明しました。

実際、AIとヘルスケアの統合に取り組んでいる研究者は数多くおり、多くのプロジェクトがこの分野に投資していますが、この分野にはまだいくつかの実際的な問題が残っています。最近、Reddit の投稿で AI ヘルスケアと AlphaZero が比較され、AI ヘルスケアの問題について多くの議論が巻き起こりました。

データセットが小さく、認証が必要で、フォールトトレランスコストが高い...

一部のネットユーザーは、データセットのサイズ、人間とコンピュータの相互作用、認証、フォールトトレランスコストの観点からDeepMindのAlphaZeroと総合的に比較し、既存のAI医療診断システムの基本的な問題点を指摘した。

まず、医療データセットは一般的にそれほど大きくありません。これは、医師による注釈付けのコストが高いためです。さらに、医療プロセスは非常に遅いです。たとえば、MRI 装置は 1 時間あたり 2 回しかスキャンを実行できず、1 日あたり最大 48 回、年間 20,000 回未満しか実行できません。病気が 20 種類ある場合、病気ごとに 1,000 回のスキャンしか取得できません。複数の病院からデータを収集する場合、各病院で処理に数か月かかる可能性があり、研究者にはさまざまなフォームに記入する余裕がありません。それに比べて、AlphaZero のデータ収集ははるかに簡単です。ゲームをプレイするだけで、1 時間ごとに数百万のデータが生成されます。

他のユーザーもこの点に強く同意しました。彼はかつて、最初に 3 人の医師によって注釈が付けられ、その後ドメインの専門家によって再検査された MRI データセットを見たことがありますが、このプロセスには長い時間がかかりました。

2 つ目は、人間とコンピューターの相互作用です。少なくとも近い将来、医療診断システムには人間の医師の参加が必要です。したがって、医療診断システムは予測を行うことに加えて、信頼度レベル、その他の可能性のある結果、および有用な補助情報も出力する必要があります。これらに適切に対処する方法は、依然としてほとんど未解決の問題です。 AlphaZero は単一のアクションを出力するだけで済みます。

もう一度、認証です。医療診断システムが機能することを政策立案者や医療免許委員会に「証明」する必要があります。現在、ニューラルネットワークの説明は未解決の問題であり、説明がそもそも可能かどうか疑問視する人もいます。 AlphaZero には承認や認可は必要ありません。ゲームサーバーに展開するか、人間のプレイヤーでテストするだけで済みます。

[[392054]]

最後に、フォールトトレランスのコストです。医療診断システムが誤った判断をした場合、その開発者は数百万ドルの訴訟に直面する可能性がある。したがって、システムが正しく実行されていることを確認する必要があります。 AlphaZero は囲碁で負けました。本当にひどかったです、それだけです。

医療診断は一度きりのものではない

データセットのサイズ、医療認証、フォールトトレランスコストなどのマクロ的な問題に加えて、一部のネットユーザーは別の問題にも言及しました。さまざまな状態の患者が診断画像上でまったく同じ症状を示す場合があり、医療診断システムが誤った判断を下すことがあります。

[[392055]]

さらに、異なるマシンや異なるイメージングデバイスによって生成された画像の分布は大きく異なる場合があり、あるマシンで適切に機能するアルゴリズムが別のマシンではまったく適さない場合もあります。解釈可能性も問題です。たとえアルゴリズムが正しい医学的結果を出したとしても、医師はアルゴリズムがどのようにしてその結論に達したのかを尋ねることがよくあります。

実際、診断は AI や ML にとって極めて難しい問題です。患者は複数の病状を抱え、さまざまな症状を経験する場合があります。したがって、医療診断システムの初期診断に加えて、さらなる診断、治療計画、予後、健康スケジュールに対するインテリジェントなサポートも必要です。

AI医療は健康や安全に深く関わる分野であるため、信頼性は最も重要な課題の一つですが、見落とされがちです。病理サンプルの分析においても、ある程度の不確実性が残ることがよくあります。画像にラベルを付けるだけでは、さまざまなバイアスが生じる可能性があります。これは、複数の専門家の間で合意に達した後でも発生する可能性があり、コストが飛躍的に高くなる可能性があります。

ヘルスケアにおける問題は複雑であり、AI は現在、明確な医学的診断や予測を提供するよりも、日常生活に適用されています。ある医師のネットユーザーはこう語った。「AI医療の分野で発表された論文のほとんどは全く役に立たないが、これらの研究は多くの可能性を提供している。今後数年で、この分野の誇大宣伝バブルははじけ、関連規制により、臨床現場にAIツールを導入するハードルが上がるだろう。現在、一部の製品はEUやFDAの支援を受けているが、臨床面での支援はまだない。」

AIが医療に本格的に活用されるまでには、まだ長い道のりがありそうです。

参考リンク:

https://www.reddit.com/r/MachineLearning/comments/mkol81/why_are_correct_ai_medical_diagnoses_seemingly_so/

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 機械学習の特徴選択のためのPythonツール

>>: AV-TESTに再び認定されました！ Sangfor EDRは中国で初めて満点を獲得したエンタープライズレベルのエンドポイントセキュリティ製品となる