GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

GPT-4 が人間のデータ専門家を引き継いでいます!事前の知識により、LLMは従来の方法に匹敵する精度で大胆な予測を行うことができます。

データ サイエンスでは、AI 研究者は不完全なデータセットを処理するという課題にしばしば直面します。

しかし、既存のアルゴリズムの多くは、「不完全な」データ シーケンスを処理することができません。

従来、データ サイエンティストは専門家に頼り、その専門知識を活用してギャップを埋めていましたが、このプロセスは時間がかかり、非現実的です。

AIが専門家の役割を引き継ぐことができたらどうなるでしょうか?

最近、ドイツ人工知能センター、大阪大学などの研究者らが、法学修士号(LLM)取得者がデジタル専門家として活躍できるかどうかを調査した。

結局のところ、現在の大規模モデルは大量のテキストでトレーニングされており、医療データや社会科学などのさまざまなトピックの問題を深く理解している可能性があります。

論文アドレス: https://arxiv.org/pdf/2402.07770.pdf

研究者らは、LLM の回答を実際のデータと比較し、データのギャップを解消するための統計的手法を開発しました。

結果は、多くの場合、LLM は人間の専門家に頼ることなく、従来の方法と同様に正確な推定値を提供できることを示しています。

LLM を使用したデータ補間

医学、経済、環境研究など、データの分析では、不完全な情報という問題に遭遇することがよくあります。

これには、事前ヒューリスティック(事前知識の決定)とデータ補間(欠落データの補完)という 2 つの主要な手法を使用する必要があります。

事前誘導とは、モデル内の特定のパラメータについて仮定を行うために、既存の専門知識を体系的に収集することを指します。

一方、データセットに情報が欠落している場合、データ補完が役立ちます。

いくつかの欠落部分があるという理由で貴重なデータセットを破棄するのではなく、科学者は統計的手法を使用して妥当な値でそれらを埋めます。

この研究で使用された主なデータセットは、OpenML-CC18 Curated Classification Benchmark であり、信用格付けから医療、マーケティングまでさまざまな分野をカバーする 72 の分類データセットが含まれています。

この多様性により、実験は幅広い現実世界のシナリオをカバーし、さまざまな設定での LLM のパフォーマンスに関する適切な洞察を提供することが保証されます。

最新の方法における最も重要なステップの 1 つは、データセット内に欠損値を人工的に生成して、不完全なデータ ポイントの状況をシミュレートすることであることは言及する価値があります。

研究者らは、ランダム欠落(MAR)パターンを使用して完全なエントリからこの欠落データを生成し、真実データと比較しました。

まず、OpenML 記述から各データセットに適切な専門家ペルソナを生成し、それを使用して LLM を初期化し、欠損値を照会できるようにします。

LLaMA 2 13B Chat、LLaMA 2 70B Chat、Mistral 7B Instruct、Mixtral 8x7B Instruct などの LLM を使用した補間が個別に評価されました。

これらのモデルは、この種の分析で一般的に使用される 3 つの経験的手法 (それぞれ、平均とモードの推定、k 最近傍 (k-NN) 推定、連続的特徴とカテゴリ特徴のランダム フォレスト推定) と比較されました。

帰属品質は、連続的特徴とカテゴリ的特徴の両方について、正規化された二乗平均平方根誤差 (NRMSE) と F1 スコアに基づいて評価されます。

このアプローチにより、研究者は LLM がデータ外挿の専門家として機能する能力を調査し、そのパフォーマンスを従来の方法と比較することができました。

この革新的なアプローチは、不完全なデータセットを扱う上で新たな視点を開き、データサイエンスにおける LLM の可能性を浮き彫りにします。

従来の方法との比較

予想に反して、分析結果は、LLM の推定品質が 3 つの経験的手法の推定品質よりも一般的に優れているわけではないことを示しています。

ただし、LLM ベースの補完は、特にエンジニアリングやコンピューター ビジョンの分野における特定のデータセットには役立ちます。

これらの分野の「PC1」、「PC3」、「Satimage」などの一部のデータセットは、NRMSEが約0.1の帰属品質を示しており、生物学やNLPの分野でも同様の結果が観察されています。

興味深いことに、LLM 帰属に基づくダウンストリームのパフォーマンスはドメインによって異なります。

社会科学や心理学などの分野の成績は悪かったが、医学、経済学、ビジネス、生物学などの分野の成績は良かった。 LLM ベースの代入が商業分野で最も優れたパフォーマンスを発揮することは注目に値します。

さらに、研究では、少なくとも一部の領域では、LLM は豊富なトレーニング データに基づいて、現実世界のデータと照合できる正確で適切な推定値を提供できることが示されています。

LLM をデータ補完に使用することは有望ですが、ドメインと特定の使用ケースを慎重に検討する必要があります。

したがって、この研究の結果は、データサイエンスにおける LLM の可能性と限界をより深く理解することに貢献します。

LLM事前分布を用いたヒューリスティック

さらに、研究者らは LLM を使用して事前誘導を研究し、LLM が特徴の分布に関する情報を提供できるかどうか、またそれがデータ収集とその後のデータ分析にどのように影響するかを評価することを目指しました。

特に、LLM によって取得された事前分布の影響と有効性をさらに理解し、そのパフォーマンスを従来の方法やモデルと比較します。

著者らは、LLM 推定値を Stefan らの実験結果と比較しました。

この実験では、6 人の心理学研究者に、それぞれの分野における典型的な小規模および中規模の効果サイズとピアソン相関について質問しました。

同様の質問を使用して、LLM は専門家、専門家のグループ、または非専門家をシミュレートし、優先順位の分布を照会するように求められます。

これは、比較実験で使用されたインタビュープロトコルを参照しても参照しなくても実行できます。

ここでは、ベイズデータ分析のために専門家の情報に基づいた事前分布をモデルが提供することを要求する新しいプロンプト戦略を提案します。

このプロセスにおいて、ChatGPT 3.5 は、ヒストグラム手法と組み合わせたシェフィールドに触発されたフレームワークなど、学術に触発されたフレームワークに精通していることを示しています。

研究者らはこのフレームワークを使用して、世界中のあらゆる規模の25都市における12月の典型的な毎日の気温と降水量の事前分布を生成した。

ChatGPT は、トレーニング データから得られた知識を使用して、専門家の議論をシミュレートし、パラメータの確率分布を構築します。

実験結果

驚くべきことに、さまざまなサブフィールドの専門家の役割は、LLM によって生成された事前確率に大きな影響を与えませんでした。

実験では、どんな役割を演じたとしても、彼らの判断は非常に似ていました。

ほとんどの人間の専門家は、影響は小さいだろうと考え、予測に慎重になる傾向があります。 GPT-4 の専門家だけがより大胆で、影響は中程度から大きいと考えています。

天気が買い物行動に与える影響など、2 つの事柄の関係性に関しては、デジタル アシスタントは実際の人間とは異なる視点を持っています。

一部のデジタルアシスタントは、中間が低く、高いエッジを持つ「バスタブ」曲線を示しますが、GPT-4 はより滑らかなベル曲線を示します。

次に著者らは、これらの数字主義者が自分たちの予測にどれほど自信を持っているかを調べた。ミストラル 7B インストラクトを除いて、かなり慎重で控えめな見積もりを提示した会社もありました。ミストラル 7B インストラクトは見積もりの​​質に非常に自信を持っていました。

これらの結果を総合すると、LLM は、いくつかの点では人間の専門家の判断と競合できるが、他の点では大幅に異なる事前確率を生成できることも示唆しています。

結論は

この研究は、医学、経済学、生物学などの分野では、LLM が従来のデータ補間方法を超える貴重な洞察をすでに提供できることを示しています。

LLM は、さまざまなソースからの知識を統合し、それを特定のアプリケーション コンテキストに適用して、データ分析の新たな展望を切り開くことができます。

特に専門家を見つけるのが難しい場合や時間が限られている場合には、LLM は貴重なリソースとなります。

<<:  Google AIのスターがPika: ビデオ生成Lumiereの創設科学者に就任

>>:  役立つ情報満載!カルパシーの2時間AIコースの最初のエピソードはテキスト形式で提供されます。新しいワークフローは、ビデオを自動的に記事に変換します。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

レノボ、HPC+AI によるアルゴリズムの世界を構築する初のハイブリッド インテリジェンス アカデミック カンファレンスに初参加

8月25日〜26日、第1回中国認知コンピューティングおよびハイブリッドインテリジェンス学術会議が西安...

自動運転車と機械学習:交通の未来を変える

自動運転車と機械学習は、自動車業界に革命をもたらす画期的な技術として登場しました。人工知能 (AI)...

AIはHRにどのように役立つのでしょうか?

全国的に人材不足が進む中、テクノロジーは雇用者が厳しい市場で最高の人材を見つけるのに役立ちますが、人...

国産ディープラーニングフレームワーク「MegEngine」が3月末にオープンソース化

2020 年にどのディープラーニング フレームワークを選択すべきでしょうか?今、新たな選択肢がありま...

金融や視覚分野に加えて、AIはゲーム開発においても破壊的な技術となっている。

機械学習は、ゲームプログラミングではなく、ゲーム開発トレーニングへの扉を開きます。 「ゲーム開発」は...

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

今週末の12月10日、欧州連合はChatGPTを含む一般的な人工知能システムを対象とする世界初のAI...

人工知能と自然言語処理の概要: AI の 3 つの主要段階と NLP の主な応用分野

最近、Xenonstack は Jagreet Kaur 氏による「人工知能の概要とビッグデータにお...

...

絵画制作において想像力を最大限に発揮できる 8 つの優れた AI ペイント ツール

今日は、絵画作成において無限の想像力を発揮するのに役立つ 8 つの優れた AI ペイント ツールを紹...

在庫 | 2019 年に最も注目された人工知能と機械学習のスタートアップ 10 社

ベンチャーキャピタル投資に関する最新データが示すところによれば、投資家は人工知能や機械学習のスタート...

人工知能のヒューマニズム:AIをより愛らしくする方法

1. デジタル格差が拡大し、高齢者は「デジタル難民」となっている最近、高齢者に関する2つのニュース...

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...