Google、機械学習を使用して医療イベントを予測するFHIRプロトコルバッファツールをオープンソース化

Google、機械学習を使用して医療イベントを予測するFHIRプロトコルバッファツールをオープンソース化

先月26日、GoogleはarXivに「電子健康記録のためのスケーラブルで正確なディープラーニング」(Alvin Rajkomar他)と題する論文を公開した。論文では、Fast Healthcare Interoperability Resources (FHIR) 形式に基づいた患者の EHR 生記録表現を提案し、ディープラーニング手法を使用して複数の医療イベントの発生を正確に予測しました。

論文の要約は次のとおりです。

電子健康記録 (EHR) データを使用した予測モデリングにより、個別化医療が推進され、医療の質が向上することが期待されています。予測統計モデルを構築するには、通常、正規化された EHR データから戦略的な予測変数を抽出する必要がありますが、これは患者記録のほとんどの情報を破棄する労働集約的なプロセスです。私たちは、Fast Healthcare Interoperability Resources (FHIR) 形式に基づいて、患者の EHR 生の記録全体を表現することを提案します。この表現を使用したディープラーニングアプローチにより、サイト固有のデータ調整を必要とせずに、複数のセンターからの複数の医療イベントを正確に予測できることを実証します。私たちは、少なくとも 24 時間入院している 216,221 人の成人患者を擁する米国の 2 つの大学医療センターの匿名化された電子医療記録データを使用して、このアプローチを検証しました。合計すると、この EHR データには、臨床説明を含め、当社が提案するシーケンス形式の 46,864,534,945 個のデータ ポイントが含まれています。ディープラーニング モデルは、院内死亡率 (施設全体の AUROC 0.93-0.94)、30 日以内の予定外再入院率 (AUROC 0.75-0.76)、入院期間延長 (AUROC 0.85-0.86)、および全患者の最終診断 (頻度加重 AUROC 0.90) の予測において極めて高い精度を達成しました。いずれの場合も、これらのモデルは従来の予測モデルよりも優れたパフォーマンスを発揮しました。また、臨床医が予測の透明性をどのように高めることができるかを示すニューラル ネットワーク属性システムのケース スタディも紹介します。このアプローチにより、患者アイコンで直接証拠を強調する説明とともに、さまざまな臨床設定に対して正確でスケーラブルな予測を作成できると考えています。

この研究の中で、彼らは、機械学習を大規模に実装するには、大量のデータをディスクにシリアル化し、大規模なデータセットの表現を分析できるようにするために、FHIR 標準にプロトコル バッファ ツールを追加する必要があるという結論に達しました。

昨日、Google はプロトコル バッファ ツールをオープンソース化したと発表しました。以下は、Google のブログ投稿の内容をまとめたものです。

過去 10 年間で、医療データは主に紙のファイルからデジタルの電子医療記録に移行しました。しかし、このデータを理解するにはいくつかの重要な課題があるかもしれません。

  • まず、異なるベンダー間で共通のデータ表現が存在せず、各ベンダーがそれぞれ異なる方法でデータを構造化しています。

  • 第二に、同じサプライヤーの Web サイトのデータを使用する場合でも、同じ医薬品を表すために複数のコードが使用されることが多いなど、大きな違いが生じる可能性があります。

  • 3 番目に、データは多くの異なるテーブルに分散されている可能性があり、その一部は重複し、一部には実験データが含まれており、一部にはバイタル サインが含まれています。

少なくとも基本的な電子健康記録システムを導入し、認定された電子健康記録システムを持つ非連邦急性期病院の割合。基本的な電子健康記録 (EHR) は EHR システムの基本機能を満たしており、認定 EHR は病院が EHR と法的契約を結んでいることを意味しますが、EHR システムを導入することと同じではありません。

Fast Healthcare Interoperability Resources (FHIR) は、電子医療記録を交換するためのデータ形式、データ要素、アプリケーション プログラム インターフェイスを記述するドラフト標準です。この標準は、医療標準化団体である Health Level Seven International によって開発されました。この標準は、これらの課題のほとんどにすでに対処しています。堅牢で拡張可能なデータ モデルを備え、確立された Web 標準に基づいて構築されており、個々のレコードと一括データ アクセスの両方の事実上の標準として急速に普及しつつあります。 しかし、大規模な機械学習を実現するには、複数のプログラミング言語のツール、大量のデータをディスクにシリアル化する効率的な方法、大規模なデータセットの分析を可能にする表現など、いくつかの要素を補完する必要があります。

本日、私たちはこれらの問題に対処する FHIR 標準のプロトコル バッファー実装をオープン ソース化できることを嬉しく思います。現在のバージョンでは Java 言語がサポートされており、近々 C++、Go、Python などの言語もサポートされる予定です。さらに、レガシー データを FHIR に変換するのに役立つプロファイルとツールのサポートも近日中に提供される予定です。

オープンソースアドレス: https://github.com/google/fhir

プロトコル バッファ ツール: https://developers.google.com/protocol-buffers/

コアデータモデルとしてのFHIR

過去数年間、私たちは学術医療センターと協力して、機械学習を使用して医療記録を「匿名化」(つまり、症状が現れる前に患者のニーズを予測するなど、将来の可能性のある状態を予測するために個人を特定できる情報をすべて取り除く)してきましたが、医療データの複雑さに対処する必要があることが明らかになりました。実際、機械学習は医療データに非常によく適合するため、時間の経過とともに各患者に何が起こったのかをより完全に把握できると期待しています。ボーナスとして、臨床現場に直接適用できるデータ表現が得られることを期待しています。

FHIR 標準はほとんどのニーズを満たしていますが、ヘルスケア データを使用すると、「従来の」データ構造よりも管理が容易になり、ベンダーに依存しない大規模な機械学習が可能になります。バッファの導入は、アプリケーション開発者(機械学習関連)と FHIR を使用する研究者の両方に役立つと考えています。

プロトコル バッファの現在のバージョン

私たちは、プロトコル バッファ表現をプログラムでアクセス可能にし、データベースでクエリ可能にするために懸命に取り組んできました。 FHIR データを Google Cloud の BigQuery にアップロードし、外部クエリで使用できるようにする方法を示した例が提供されています。一括データから直接エクスポートおよびアップロードできる他の例も追加しています。当社のプロトコル バッファーは FHIR 標準に準拠していますが (実際には FHIR 標準によって自動的に生成されます)、よりエレガントな方法でクエリすることもできます。

現在のバージョンには TensorFlow モデルのトレーニングのサポートは含まれていませんが、将来追加される予定です。 私たちの目標は、最近の研究成果をできるだけ多くオープンソース化し、研究の再現性を高め、現実のシナリオに適用できるようにすることです。 さらに、私たちは Google Cloud の同僚と緊密に連携して、医療データを管理するための追加ツールの開発に取り組んでいます。

<<:  2018年のソフトウェア開発に関する10の予測、注目のブロックチェーンとAIを含む

>>:  ブロックチェーン、自動運転、人工知能の戦いが始まった。次にホットスポットになるのはどれか?

ブログ    

推薦する

C# 暗号化におけるハッシュ アルゴリズムの適用に関する簡単な分析

ハッシュ アルゴリズムは C# 暗号化でよく使用される方法ですが、ハッシュ アルゴリズムとは何でしょ...

ABCの中でビッグデータが最初に遅れをとる理由

[[211451]]人工知能 (AI)、ビッグデータ、クラウドコンピューティングは、今日のインターネ...

顔認識に関する初の訴訟が法廷に。顔スキャンを拒否する権利は失われたのか?

今日では、顔認識技術は私たちの生活や消費の場面でますます利用されるようになっています。最近、「中国初...

チャット記録をアップロードして自分自身を「複製」する。このスタートアップは「ブラックミラー」の第 1 話を現実のものにしました

10年前に放映されたアメリカのテレビシリーズ「ブラックミラー」の第1話のタイトルは「Be Right...

情報漏洩を防ぐためにローカルで構築できるオープンソースモデルPrivateGPTが利用可能になりました

6月25日、サムスン、JPモルガン・チェース、アップル、アマゾンなどの企業は、会社の機密情報の漏洩を...

住宅地に顔認識システムを設置する前に、5つの主要なセキュリティの質問に答えてください

誰のため?なぜ?コミュニティ顔認識システム導入の需要の源と目的多くの居住コミュニティが顔認識システム...

AI愛好家が注目するべき8人のインスタグラマー

人工知能(AI)は現在、主要な技術進歩の一部となっています。そして、AI がますます強力かつ高度にな...

...

Langchain、ChromaDB、GPT 3.5 に基づく検索強化型生成

翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...

負荷分散アルゴリズムの完全なリスト

負荷分散の開発基盤は負荷分散アルゴリズムです。次に、サーバーごとに持つ機能や必要な機能が異なるため、...

インタビュアー: 「最後にアルゴリズムを書いてください。単一のリンクリストを使用して加算を実行してみましょう...」

[[286163]]質問: 空でない 2 つのリンク リストが与えられた場合、2 つの負でない整数...

髪の毛のような精度で画像を切り取り、Adobeは6000×6000の高解像度画像を処理します

多くのディープラーニング手法は優れたマッティング結果を実現しますが、高解像度の画像を適切に処理するこ...

ヘルスケアにおける機械学習の悪影響

Marzyeh Ghassemi 助教授は、医療データに隠れたバイアスが人工知能のアプローチにどのよ...