GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データサイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。

しかし、既存のアルゴリズムの多くは、「不完全な」データシーケンスを処理することができません。

従来、データサイエンティストは専門家に頼り、その専門知識を活用してギャップを埋めていましたが、このプロセスは時間がかかり、非現実的です。

AIが専門家の役割を引き継ぐことができたらどうなるでしょうか?

最近、ドイツ人工知能センター、大阪大学などの研究者らが、法学修士号（LLM）取得者がデジタル専門家として活躍できるかどうかを調査した。

結局のところ、現在の大規模モデルは大量のテキストでトレーニングされており、医療データや社会科学などのさまざまなトピックの問題を深く理解している可能性があります。

論文アドレス: https://arxiv.org/pdf/2402.07770.pdf

研究者らは、LLM の回答を実際のデータと比較し、データのギャップを解消するための統計的手法を開発しました。

結果は、多くの場合、LLM は人間の専門家に頼ることなく、従来の方法と同様に正確な推定値を提供できることを示しています。

LLM を使用したデータ補間

医学、経済、環境研究など、データの分析では、不完全な情報という問題に遭遇することがよくあります。

これには、事前ヒューリスティック（事前知識の決定）とデータ補間（欠落データの補完）という 2 つの主要な手法を使用する必要があります。

事前誘導とは、モデル内の特定のパラメータについて仮定を行うために、既存の専門知識を体系的に収集することを指します。

一方、データセットに情報が欠落している場合、データ補完が役立ちます。

いくつかの欠落部分があるという理由で貴重なデータセットを破棄するのではなく、科学者は統計的手法を使用して妥当な値でそれらを埋めます。

この研究で使用された主なデータセットは、OpenML-CC18 Curated Classification Benchmark であり、信用格付けから医療、マーケティングまでさまざまな分野をカバーする 72 の分類データセットが含まれています。

この多様性により、実験は幅広い現実世界のシナリオをカバーし、さまざまな設定での LLM のパフォーマンスに関する適切な洞察を提供することが保証されます。

最新の方法における最も重要なステップの 1 つは、データセット内に欠損値を人工的に生成して、不完全なデータポイントの状況をシミュレートすることであることは言及する価値があります。

研究者らは、ランダム欠落（MAR）パターンを使用して完全なエントリからこの欠落データを生成し、真実データと比較しました。

まず、OpenML 記述から各データセットに適切な専門家ペルソナを生成し、それを使用して LLM を初期化し、欠損値を照会できるようにします。

LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct、Mixtral 8x7B Instruct などの LLM を使用した補間が個別に評価されました。

これらのモデルは、この種の分析で一般的に使用される 3 つの経験的手法 (それぞれ、平均とモードの推定、k 最近傍 (k-NN) 推定、連続的特徴とカテゴリ特徴のランダムフォレスト推定) と比較されました。

帰属品質は、連続的特徴とカテゴリ的特徴の両方について、正規化された二乗平均平方根誤差 (NRMSE) と F1 スコアに基づいて評価されます。

このアプローチにより、研究者は LLM がデータ外挿の専門家として機能する能力を調査し、そのパフォーマンスを従来の方法と比較することができました。

この革新的なアプローチは、不完全なデータセットを扱う上で新たな視点を開き、データサイエンスにおける LLM の可能性を浮き彫りにします。

従来の方法との比較

予想に反して、分析結果は、LLM の推定品質が 3 つの経験的手法の推定品質よりも一般的に優れているわけではないことを示しています。

ただし、LLM ベースの補完は、特にエンジニアリングやコンピュータービジョンの分野における特定のデータセットには役立ちます。

これらの分野の「PC1」、「PC3」、「Satimage」などの一部のデータセットは、NRMSEが約0.1の帰属品質を示しており、生物学やNLPの分野でも同様の結果が観察されています。

興味深いことに、LLM 帰属に基づくダウンストリームのパフォーマンスはドメインによって異なります。

社会科学や心理学などの分野の成績は悪かったが、医学、経済学、ビジネス、生物学などの分野の成績は良かった。 LLM ベースの代入が商業分野で最も優れたパフォーマンスを発揮することは注目に値します。

さらに、研究では、少なくとも一部の領域では、LLM は豊富なトレーニングデータに基づいて、現実世界のデータと照合できる正確で適切な推定値を提供できることが示されています。

LLM をデータ補完に使用することは有望ですが、ドメインと特定の使用ケースを慎重に検討する必要があります。

したがって、この研究の結果は、データサイエンスにおける LLM の可能性と限界をより深く理解することに貢献します。

LLM事前分布を用いたヒューリスティック

さらに、研究者らは LLM を使用して事前誘導を研究し、LLM が特徴の分布に関する情報を提供できるかどうか、またそれがデータ収集とその後のデータ分析にどのように影響するかを評価することを目指しました。

特に、LLM によって取得された事前分布の影響と有効性をさらに理解し、そのパフォーマンスを従来の方法やモデルと比較します。

著者らは、LLM 推定値を Stefan らの実験結果と比較しました。

この実験では、6 人の心理学研究者に、それぞれの分野における典型的な小規模および中規模の効果サイズとピアソン相関について質問しました。

同様の質問を使用して、LLM は専門家、専門家のグループ、または非専門家をシミュレートし、優先順位の分布を照会するように求められます。

これは、比較実験で使用されたインタビュープロトコルを参照しても参照しなくても実行できます。

ここでは、ベイズデータ分析のために専門家の情報に基づいた事前分布をモデルが提供することを要求する新しいプロンプト戦略を提案します。

このプロセスにおいて、ChatGPT 3.5 は、ヒストグラム手法と組み合わせたシェフィールドに触発されたフレームワークなど、学術に触発されたフレームワークに精通していることを示しています。

研究者らはこのフレームワークを使用して、世界中のあらゆる規模の25都市における12月の典型的な毎日の気温と降水量の事前分布を生成した。

ChatGPT は、トレーニングデータから得られた知識を使用して、専門家の議論をシミュレートし、パラメータの確率分布を構築します。

実験結果

驚くべきことに、さまざまなサブフィールドの専門家の役割は、LLM によって生成された事前確率に大きな影響を与えませんでした。

実験では、どんな役割を演じたとしても、彼らの判断は非常に似ていました。

ほとんどの人間の専門家は、影響は小さいだろうと考え、予測に慎重になる傾向があります。 GPT-4 の専門家だけがより大胆で、影響は中程度から大きいと考えています。

天気が買い物行動に与える影響など、2 つの事柄の関係性に関しては、デジタルアシスタントは実際の人間とは異なる視点を持っています。

一部のデジタルアシスタントは、中間が低く、高いエッジを持つ「バスタブ」曲線を示しますが、GPT-4 はより滑らかなベル曲線を示します。

次に著者らは、これらの数字主義者が自分たちの予測にどれほど自信を持っているかを調べた。ミストラル 7B インストラクトを除いて、かなり慎重で控えめな見積もりを提示した会社もありました。ミストラル 7B インストラクトは見積もりの質に非常に自信を持っていました。

これらの結果を総合すると、LLM は、いくつかの点では人間の専門家の判断と競合できるが、他の点では大幅に異なる事前確率を生成できることも示唆しています。

結論は

この研究は、医学、経済学、生物学などの分野では、LLM が従来のデータ補間方法を超える貴重な洞察をすでに提供できることを示しています。

LLM は、さまざまなソースからの知識を統合し、それを特定のアプリケーションコンテキストに適用して、データ分析の新たな展望を切り開くことができます。

特に専門家を見つけるのが難しい場合や時間が限られている場合には、LLM は貴重なリソースとなります。

<<: Google AIのスターがPika: ビデオ生成Lumiereの創設科学者に就任

>>: 役立つ情報満載！カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

LLM を使用したデータ補間

従来の方法との比較

LLM事前分布を用いたヒューリスティック

結論は

避けられないアルゴリズムを完全に理解するにはどうすればよいでしょうか?

中国の大学はいかにして「新世代の人工知能」をリードできるのか？

OT システムは、生成 AI によってもたらされるセキュリティ上の課題にどのように対処するのでしょうか?

Sogouの技術者が在宅勤務中にサーバーを誤操作し、誤って「マグニチュード12の地震警報」を発令した。

自動運転が原因でしょうか?上海の地下鉄で乗客がホームの網戸に挟まれて死亡した。この悲劇の責任は誰にあるのだろうか？

Ruijie NetworksとMidea Smartは戦略的提携を結び、スマート小売端末の商業化と普及に取り組んでいます。

AI はどのようにしてよりスマートな建物を作り出すのでしょうか?

GPTモデルが人間のように聞こえるのはそのためです

推薦する

交通分野におけるUAV航空調査の応用

調査結果：人工知能はクリエイターにより多くのファンと収入をもたらす可能性がある

2019 年の Web 開発のトレンドトップ 10

機械学習を理解するための 3 つの図: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

言語学における人工知能技術の応用

H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

アリババのナレッジグラフが完全公開、最先端の人工知能技術が雲奇カンファレンスで輝く

作業効率を大幅に向上できるAIツール

GPT-4 の王冠は落ちていません!クロード3アリーナの人間投票結果が発表されました: 3位のみ

機械学習を実装するには？