Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

マイクロソフトの最新の研究は、迅速なエンジニアリングの力を再び証明しています——

追加の微調整や専門家の計画は必要ありません。GPT-4 はプロンプトだけで「専門家」になることができます。

GPT-4 は、最新のプロンプト戦略Medpromptを使用して、医療専門知識の分野における MultiMed QA の 9 つのテストセットで最高の結果を達成しました。

MedQAデータセット（米国医師免許試験問題）では、MedpromptによりGPT-4は初めて90％を超える精度を達成し、 BioGPTやMed-PaLMなどの多くの微調整方法を上回りました。

研究者らはまた、Medpromptの方法は普遍的で、医学だけでなく、電気工学、機械学習、法律などの専門職にも応用できると述べた。

この研究がX（旧Twitter）で共有されると、多くのネットユーザーの注目を集めました。

ウォートン校のイーサン・モリック教授、Artificial Intuitionの著者カルロス・E・ペレスらがこの記事を共有した。

Carlos E. Perez 氏は、「優れたプロンプト戦略は、微調整をはるかに上回ることができます」と述べています。

ネットユーザーの中には、ずっと前から同じ気持ちだったが、今その結果を見ると本当に「とてもクール」だと言う人もいる。

一部のネットユーザーも、これは本当に「過激」だと述べた。

GPT-4 は業界を変えるテクノロジーであり、プロンプトや微調整の限界に到達するにはほど遠い状態です。

組み合わせたプロンプト戦略、エキスパートに「変身」

Medprompt は、3 つの魔法の武器を含む複数のプロンプト戦略の組み合わせです。

動的な少数ショットの選択
自己生成の思考の連鎖
チョイスシャッフルアンサンブル

以下、一つずつ紹介していきましょう。

動的な少数ショットの選択

少数ショット学習は、モデルがコンテキストを迅速に学習できるようにする効果的な方法です。簡単に言えば、いくつかの例を入力し、モデルを特定のドメインに素早く適応させ、タスクの形式に従うことを学習することです。

特定のタスクプロンプトに対するこのような少数のサンプルの例は通常固定されているため、例の代表性と広範さに対する要件は高くなります。

これまでのアプローチでは、ドメインの専門家が手動で例を作成していましたが、それでも、専門家によってキュレーションされた固定された少数の例がすべてのタスクで代表的であるという保証はありません。

そこで、Microsoft の研究者は、動的な少数ショットの例のための方法を提案しました。

アイデアとしては、タスクのトレーニングセットは少数ショットの例のソースとして機能し、トレーニングセットが十分に大きい場合は、異なるタスク入力に対して異なる少数ショットの例を選択できるというものです。

具体的には、研究者らはまず text-embedding-ada-002 モデルを使用して、各トレーニングサンプルとテストサンプルのベクトル表現を生成しました。次に、各テストサンプルについて、ベクトルの類似性に基づいてトレーニングサンプルから最も類似した k 個のサンプルが選択されます。

微調整方法と比較すると、動的少数ショット選択ではトレーニングデータを活用しますが、モデルパラメータを大幅に更新する必要はありません。

自己生成の思考連鎖

Chain of Thought (CoT) メソッドは、モデルに段階的に考えさせ、一連の中間推論ステップを生成する方法です。

従来の方法では、プロンプト思考チェーンを含む少数の例を専門家が手作業で作成する必要がありました。

ここで研究者たちは、GPT-4 に次のプロンプトを使用してトレーニング例の思考チェーンを生成するように単純に要求できることを発見しました。

しかし、研究者らは、この自動生成された思考の連鎖には誤った推論ステップが含まれている可能性もあると指摘し、エラーを効果的に減らすためのフィルターとして検証ラベルを設定しました。

Med-PaLM 2 モデルの専門家が手作りした思考チェーンの例と比較すると、GPT-4 によって生成された思考チェーンの根拠はより長く、段階的な推論ロジックはよりきめ細かくなっています。

オプションシャッフル統合

さらに、GPT-4 は複数選択の質問に答えるときにバイアスを持つ可能性があります。つまり、選択肢が何であっても、常に A を選択するか、常に B を選択する傾向があります。これが位置バイアスです。

この問題を軽減するために、研究者は元の選択肢の順序を入れ替えることを選択しました。たとえば、元のオプションが ABCD の場合、BCDA または CDAB に変更できます。

次に、GPT-4 に複数ラウンドの予測を行わせ、各ラウンドでオプションの異なる順序を使用します。これにより、GPT-4 はオプションの内容を「強制的に」考慮するようになります。

最後に、複数回の予測の結果に投票し、最も一貫性があり正しいオプションを選択します。

上記のプロンプト戦略を組み合わせたのが Medprompt です。テスト結果を見てみましょう。

複数のテストが最適

研究者らはテストに MultiMed QA 評価ベンチマークを使用しました。

Medprompt プロンプト戦略を使用した GPT-4 は、MultiMedQA の 9 つのベンチマークデータセットすべてで最高のスコアを達成し、Flan-PaLM 540B および Med-PaLM 2 を上回りました。

さらに、研究者らは、モデルがトレーニングデータに過剰適合しているかどうかをテストするために使用される、「Eyes-Off」データ、つまり、トレーニングまたは最適化中にモデルが一度も見たことのないデータでのパフォーマンスについても Medprompt 戦略のパフォーマンスについて議論しました。

結果: Medprompt 戦略と組み合わせた GPT-4 は、複数の医療ベンチマークデータセットで良好なパフォーマンスを発揮し、平均精度は 91.3% でした。

研究者らは、MedQA データセットに対してアブレーション実験も実施し、3 つのコンポーネントが全体的なパフォーマンスにどの程度寄与しているかを調査しました。

その中で、思考チェーンを自動生成するステップがパフォーマンスの向上に最も貢献します。

そして、GPT-4 によって自動的に生成された思考チェーンは、Med-PaLM 2 の専門家によってキュレーションされたものよりも高いスコアを獲得しました。

最後に、研究者らは、電気工学、機械学習、哲学、専門会計、専門法律、専門心理学の問題を網羅する MMLU ベンチマークの 6 つの異なるデータセットを使用して、Medprompt のクロスドメイン一般化機能を調査しました。

NCLEX (米国看護師免許試験) の質問を含む 2 つの追加データセットも追加されました。

結果によると、これらのデータセットでの Medprompt のパフォーマンスは MultiMedQA 医療データセットでのパフォーマンスと同様であり、平均精度が 7.3% 向上しました。

論文リンク: https://arxiv.org/pdf/2311.16452.pdf

<<: コンピュータービジョン GPT の瞬間!カリフォルニア大学バークレー校の3つの巨人が最初の純粋なCV大規模モデルを発表し、その推論はAGIの火花を示した

>>: 13 の視覚言語タスクをクリアしましょう!ハルビン工業大学がマルチモーダル大型モデル「九天」をリリース、性能が5%向上

Microsoft は「プロンプトエンジニアリング」のみを使用して GPT-4 を医療の専門家にします。高度に調整された数々のモデルを上回り、専門的なテスト精度が初めて90％を超える

組み合わせたプロンプト戦略、エキスパートに「変身」

動的な少数ショットの選択

自己生成の思考連鎖

オプションシャッフル統合

複数のテストが最適

無料ですか?寄生？ ChatGPTに夢中です！

AIが監督者になる。それでも仕事をサボれるのか？

AI向けに構築されたコンピューターに最適なアクセサリと外部コンポーネント

あなたの疑問に答える3つの側面：「怠け者」は人工知能に置き換えられるでしょうか？

今年の AI における最大の進歩は進歩なし？ 2019年はAutoMLとGANがリードする

Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

Google の新しい AI ツールが人間のコールセンター従業員に取って代わる可能性があります。

業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

推薦する

すべてを支配する 1 つのアルゴリズム! DeepMind はニューラルアルゴリズム推論を提案しています。ディープラーニングと従来のアルゴリズムの融合により、再び奇跡が起こるでしょうか?

人工知能は教育にどのように活用されていますか?ここに実際の例をいくつか示しますので、ぜひご覧ください。

ビッグデータと人工知能の未来は同じになるだろう

逆転！清華大学の卒業生の死はグーグルのレイオフとは無関係、家庭内暴力の詳細が明らかに、男性は殺人罪で起訴された

word2vecの作者はイリヤらとの10年間の恨みを明かした。seq2seqも私のアイデアだった

テクノロジークラウドレポート: AIアルゴリズムがTikTokの入札の中心に

GPT-4V でさえ解明できない未来推論の解決策があります!華中科技大学と上海理工大学出身

AI 実装の倫理的な展開をどのように確保するか?

運輸・物流業界におけるAIと自動化のユースケース

IDC: 生成型 AI への支出は今後 5 年間で年間 73% 増加し、2027 年には 1,430 億ドルに達する

音声認識データベースが人工知能の中核となる

ウー・ジアン：nEqual は、優れたユーザーエクスペリエンスで企業がスマートなビジネスを構築できるよう支援します