Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える

Microsoft は「プロンプト エンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90%を超える

マイクロソフトの最新の研究は、迅速なエンジニアリングの力を再び証明しています——

追加の微調整や専門家の計画は必要ありません。GPT-4 はプロンプトだけで「専門家」になることができます。

GPT-4 は、最新のプロンプト戦略Medpromptを使用して、医療専門知識の分野における MultiMed QA の 9 つのテスト セットで最高の結果を達成しました。

MedQAデータセット(米国医師免許試験問題)では、MedpromptによりGPT-4は初めて90%を超える精度を達成し、 BioGPTやMed-PaLMなどの多くの微調整方法を上回りました

研究者らはまた、Medpromptの方法は普遍的で、医学だけでなく、電気工学、機械学習、法律などの専門職にも応用できると述べた。

この研究がX(旧Twitter)で共有されると、多くのネットユーザーの注目を集めました。

ウォートン校のイーサン・モリック教授、Artificial Intuitionの著者カルロス・E・ペレスらがこの記事を共有した。

Carlos E. Perez 氏は、「優れたプロンプト戦略は、微調整をはるかに上回ることができます」と述べています。

ネットユーザーの中には、ずっと前から同じ気持ちだったが、今その結果を見ると本当に「とてもクール」だと言う人もいる。

一部のネットユーザーも、これは本当に「過激」だと述べた。

GPT-4 は業界を変えるテクノロジーであり、プロンプトや微調整の限界に到達するにはほど遠い状態です。

組み合わせたプロンプト戦略、エキスパートに「変身」

Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略の組み合わせです。

  • 動的な少数ショットの選択
  • 自己生成の思考の連鎖
  • チョイスシャッフルアンサンブル

以下、一つずつ紹介していきましょう。

動的な少数ショットの選択

少数ショット学習は、モデルがコンテキストを迅速に学習できるようにする効果的な方法です。簡単に言えば、いくつかの例を入力し、モデルを特定のドメインに素早く適応させ、タスクの形式に従うことを学習することです。

特定のタスクプロンプトに対するこのような少数のサンプルの例は通常固定されているため、例の代表性と広範さに対する要件は高くなります。

これまでのアプローチでは、ドメインの専門家が手動で例を作成していましたが、それでも、専門家によってキュレーションされた固定された少数の例がすべてのタスクで代表的であるという保証はありません。

そこで、Microsoft の研究者は、動的な少数ショットの例のための方法を提案しました。

アイデアとしては、タスクのトレーニング セットは少数ショットの例のソースとして機能し、トレーニング セットが十分に大きい場合は、異なるタスク入力に対して異なる少数ショットの例を選択できるというものです。

具体的には、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニング サンプルとテスト サンプルのベクトル表現を生成しました。次に、各テスト サンプルについて、ベクトルの類似性に基づいてトレーニング サンプルから最も類似した k 個のサンプルが選択されます。

微調整方法と比較すると、動的少数ショット選択ではトレーニング データを活用しますが、モデル パラメータを大幅に更新する必要はありません。

自己生成の思考連鎖

Chain of Thought (CoT) メソッドは、モデルに段階的に考えさせ、一連の中間推論ステップを生成する方法です。

従来の方法では、プロンプト思考チェーンを含む少数の例を専門家が手作業で作成する必要がありました。

ここで研究者たちは、GPT-4 に次のプロンプトを使用してトレーニング例の思考チェーンを生成するように単純に要求できることを発見しました。

しかし、研究者らは、この自動生成された思考の連鎖には誤った推論ステップが含まれている可能性もあると指摘し、エラーを効果的に減らすためのフィルターとして検証ラベルを設定しました。

Med-PaLM 2 モデルの専門家が手作りした思考チェーンの例と比較すると、GPT-4 によって生成された思考チェーンの根拠はより長く、段階的な推論ロジックはよりきめ細かくなっています。

オプションシャッフル統合

さらに、GPT-4 は複数選択の質問に答えるときにバイアスを持つ可能性があります。つまり、選択肢が何であっても、常に A を選択するか、常に B を選択する傾向があります。これが位置バイアスです。

この問題を軽減するために、研究者は元の選択肢の順序を入れ替えることを選択しました。たとえば、元のオプションが ABCD の場合、BCDA または CDAB に変更できます。

次に、GPT-4 に複数ラウンドの予測を行わせ、各ラウンドでオプションの異なる順序を使用します。これにより、GPT-4 はオプションの内容を「強制的に」考慮するようになります。

最後に、複数回の予測の結果に投票し、最も一貫性があり正しいオプションを選択します。

上記のプロンプト戦略を組み合わせたのが Medprompt です。テスト結果を見てみましょう。

複数のテストが最適

研究者らはテストに MultiMed QA 評価ベンチマークを使用しました。

Medprompt プロンプト戦略を使用した GPT-4 は、MultiMedQA の 9 つのベンチマーク データセットすべてで最高のスコアを達成し、Flan-PaLM 540B および Med-PaLM 2 を上回りました。

さらに、研究者らは、モデルがトレーニング データに過剰適合しているかどうかをテストするために使用される、「Eyes-Off」データ、つまり、トレーニングまたは最適化中にモデルが一度も見たことのないデータでのパフォーマンスについても Medprompt 戦略のパフォーマンスについて議論しました。

結果: Medprompt 戦略と組み合わせた GPT-4 は、複数の医療ベンチマーク データセットで良好なパフォーマンスを発揮し、平均精度は 91.3% でした。

研究者らは、MedQA データセットに対してアブレーション実験も実施し、3 つのコンポーネントが全体的なパフォーマンスにどの程度寄与しているかを調査しました。

その中で、思考チェーンを自動生成するステップがパフォーマンスの向上に最も貢献します。

そして、GPT-4 によって自動的に生成された思考チェーンは、Med-PaLM 2 の専門家によってキュレーションされたものよりも高いスコアを獲得しました。

最後に、研究者らは、電気工学、機械学習、哲学、専門会計、専門法律、専門心理学の問題を網羅する MMLU ベンチマークの 6 つの異なるデータセットを使用して、Medprompt のクロスドメイン一般化機能を調査しました。

NCLEX (米国看護師免許試験) の質問を含む 2 つの追加データセットも追加されました。

結果によると、これらのデータセットでの Medprompt のパフォーマンスは MultiMedQA 医療データセットでのパフォーマンスと同様であり、平均精度が 7.3% 向上しました。

論文リンク: https://arxiv.org/pdf/2311.16452.pdf

<<:  コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

>>:  13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

推薦する

音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

編集者注: ディープラーニングの継続的な発展により、音声認識技術は大幅に向上し、人々の日常生活に多く...

旅の途中を超えて?文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...

鍾南山氏は人工知能カンファレンスでAI COVID-19画像認識などの技術について講演した。

現在、世界の健康は大きな課題に直面しています。2020年以降の新型コロナウイルスの蔓延は、世界的な公...

人工知能: スマートシティを支える頭脳

[[347829]]私たちが知っているかどうかに関わらず、人工知能 (AI) はすでに私たちの生活の...

人工知能の仮想火災は死体の山を残した

ハリウッドのSF大作では、人工知能は常に、将来の人類の生存を脅かす自己認識機械として定義されています...

プロセス産業におけるグリーン製造における人工知能の機会と課題

1. はじめにプロセス産業は原材料産業の一分野であり、国民経済にとって大きな意義を持っています。数十...

Pythonアルゴリズムの正しい実装の紹介

経験豊富な Python プログラマーにとって、Python アルゴリズムの実装は難しくありません。...

PyTorch 生成的敵対ネットワーク (GAN) を簡単に構築

あなたの目の前に表示されている画像の人物は現実には存在しません。実は、機械学習モデルによって作成され...

...

南京科技大学とオックスフォード大学は、1行のコードでゼロショット学習法の効果を大幅に向上させるプラグアンドプレイ分類モジュールを提案した。

ゼロショット学習は、トレーニングプロセス中に出現しなかったカテゴリの分類に重点を置いています。意味記...

口コミの逆転、Pika 1.0の試用効果は多くの人々を納得させ、「最高のビデオジェネレーター」と呼んだ

先月末、Pika 1.0と呼ばれる動画生成AIモデルがソーシャルメディア上で話題になった。3Dアニメ...

...

Google が 7 つの言語で新しいデータセットをリリース: BERT などの多言語モデル タスクの精度が最大 3 倍向上します。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

HipHop アルゴリズム: マイクロブログの相互作用関係を使用してソーシャル サークルをマイニングする

[[120924]] Weibo 環境において、Weibo ユーザーのソーシャル サークルや興味サー...