マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

マイクロソフト、医療病理学の症例を分析する LLaVA-Med AI モデルを発表

6月14日、マイクロソフトの研究者らは、主に生物医学研究に使用され、CTやX線画像に基づいて患者の病状を推測できるLLaVA-Medモデルのデモを行った。

マイクロソフトの研究者らは、マルチモーダル AI モデルのトレーニングに向け、バイオメディカル画像とテキストの対応に関する大規模なデータセットを取得するため、病院グループと協力したと報じられています。データセットには、胸部X線、MRI、組織学、病理学、CT画像などが含まれており、比較的包括的にカバーされています。

▲ 画像出典:Microsoft

Microsoft は、Vision Transformer と Vicuna 言語モデルに基づいて、8 つの NVIDIA A100 GPU 上で LLaVA-Med を GPT-4 でトレーニングしました。このモデルには、「各画像のすべての事前分析情報」が含まれており、画像に関する質問と回答を生成して、「生物医学画像に関する質問に自然言語で答えられる」というアシスタントのビジョンを実現します。

学習プロセス中、モデルは主に「そのような画像の内容を説明すること」と「生物医学的概念を詳しく説明すること(ITホーム注:画像からどのように見えるかを判断する)」を中心に展開します。 Microsoft によれば、このモデルは最終的に「優れたマルチモーダル会話機能」を備えており、「LLaVA-Med は、視覚的な質問に答えるための 3 つの標準的な生物医学データセットのいくつかの指標において、他の最先端モデルよりも優れています。」

▲ 画像出典:Microsoft

研究チームは次のように述べている。「LLaVA-Med モデルは、有用なバイオメディカル視覚アシスタントの構築に向けた重要なステップであると考えていますが、現在の LLaVA-Med モデルには、大規模モデルに共通する誤った例や精度の低さといった欠点がまだあります。今後、研究チームはモデルの品質と信頼性の向上に注力し、将来このモデルが商用バイオメディカルで使用できるようになる予定です。」

IT Home は、このモデルがオープンソース化され、誰でも GitHub で関連情報を見つけることができることに気づきました。

<<:  日本俳優連合がAI法案を提案、「声の肖像権」創設求める

>>:  ChatGPTは早朝にメジャーアップデートを実施しました! GPT-3.5/4 デュアルアップグレード: コンテキストが 4 倍に増加し、API を使用して独自のプラグインを作成できるようになりました

ブログ    
ブログ    

推薦する

人工知能と仮想現実のつながり

バーチャルリアリティ(VR)は、新しい実用的な技術です。バーチャルリアリティ技術は、コンピュータ、電...

...

ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは NLP の未来でしょうか?今は2021年で、かつて全盛期だった多くの技術は長い間無...

人間は AI シミュレーションの中で生きられるのか?

人々が自らに問うべき実存的な問いは、自分たちがシミュレートされた宇宙に住んでいるかどうかだ。 [[3...

...

気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは?

​最近、浙江省の高温が話題になっています。継続的な高温と干ばつの悪影響を緩和するために、浙江省の多く...

AIの中心的な難しさの1つ:感情分析の一般的な種類と課題

感情分析または感情 AI は、商用アプリケーションでは意見マイニングと呼ばれることが多く、自然言語処...

世界中のロボットが1つの脳を共有する、Google DeepMindが第一歩を踏み出した

過去 1 年間、生成型人工知能の開発におけるキーワードは「ビッグ」でした。強化学習の先駆者であるリッ...

...

女性が30時間以上浴室に閉じ込められた。この危機的状況でAIは彼女を危険から救うことができるのか?

[[385476]]一人暮らしはとても幸せですが、それでも不便なこともたくさんあります。カバーニュ...

Microsoft が 8 つの Nvidia H100 GPU を搭載した Azure ND H100 v5 仮想マシンをリリース

IT Homeは11月21日、Microsoft Azure AIインフラストラクチャがアップグレー...

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線ス...

「機械代替」がもたらす技術的失業危機をどう見るか

[[376593]] 1月18日の光明日報によると、近年、中国の製造業は「機械が人間に取って代わる」...

...

Wolfram言語の父: ChatGPT は何ができるのか?

写真ChatGPT は非常に人気が高まり、人間の働き方や考え方さえも変え始めています。それを十分に理...