ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高く評価されてきました。しかし、最近の研究では、大規模なモデルは一般的に因果推論のパフォーマンスが低く、GPT-4 でさえ失敗することがわかりました。 この研究は、マックス・プランク研究所、チューリッヒ工科大学、ミシガン大学、香港大学、Meta AIの研究者によって実施されました。この研究の目的は、大規模言語モデル (LLM) が相関関係に基づいて因果推論を実行できるかどうかを調査することです。 論文アドレス: https://arxiv.org/abs/2306.05836 因果推論は重要な推論タスクです。因果関係を得るには、経験的知識を介した 2 つの基本的な方法があります。たとえば、友人の誕生日プレゼントを用意すると、友人が喜ぶことは常識からわかります。もう 1 つは、いくつかの手順とルールを介した純粋な因果推論です (Spirtes 他、2000 年、Pearl、2009 年、Peters 他、2017 年)。 下の図 1 に示すように、A が B と相関関係にある場合、A が B の原因であることを意味するわけではありません。A と B が元々独立しているが、C によって相関関係になった場合、この閉じたシステムでは C が A と B の共通効果であると推測できます。 この研究では、新しい NLP タスクである相関因果推論 (CORR2CAUSE) を提案します。 LLM の成功が項目間の大量の統計的相関関係を捕捉することから生まれるのであれば、重要なステップが欠落している場合、相関関係をどのように処理し、因果関係を推測するのでしょうか?したがって、本研究では、CORR2CAUSE 推論が大規模言語モデル (LLM) に不可欠なスキルであると主張しています。 データセットの構築まず、この研究では、大規模言語モデルの純粋な因果推論機能をテストするために、CORR2CAUSE データセットを収集して整理しました。このデータセットのすべての質問は、LLM が相関関係から因果関係を推測するタイミングを中心に展開されます。 CORR2CAUSE データセットを体系的に形成するために、一般化プロセスを因果発見の正式なフレームワーク (Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019) に組み込みます。このフレームワークは、観測データ内の統計的相関に基づいて変数間の因果関係を推測するルールをカバーしています。 CORR2CAUSE データセットには 400K のサンプルが含まれており、有効なサンプルは 18.57% を占めています。相関関係と因果関係のステートメント ペアは、統計的相関関係と潜在的な因果関係の間に一対一のマッピングがある場合にのみ有効としてマークされます。 この研究では、CORR2CAUSE データセットに基づいて、主に次の 2 つの問題を分析します。
この研究では、既存の 17 個の LLM がすべて、この純粋な因果推論タスクでパフォーマンスが低いことが実験を通じて示されました。また、LLM はデータを微調整するとパフォーマンスが向上しますが、因果推論スキルは堅牢ではありません。 実験結果既存のLLMのCORR2CAUSE機能 下の表 4 に示すように、純粋な因果推論は、実験におけるすべての LLM にとって非常に困難なタスクです。その中で、BART MNLI は F1 値が 33.38% と最も高く、GPT-4 (29.08%) よりも高くなっています。特に、多くのモデルはランダムな推測よりもパフォーマンスが低く、純粋な因果推論タスクでは完全に失敗します。 微調整されたパフォーマンス 次に取り組むべき質問は、LLM にこのタスクを再学習させることができるかどうかです。 以下の表5(a)の実験結果から、CORR2CAUSEで微調整された12のモデルは比較的良好なパフォーマンスを示し、ほとんどのモデルで大幅なパフォーマンス向上が達成されたことがわかります。その中でも、BERT ベースの NLI モデルは微調整後に最高のパフォーマンスを発揮し、RoBERTa-Large MNLI はこのタスクで F1 スコア 94.74% を達成し、精度、再現率、正確性スコアも非常に高くなりました。 一方、図5(b)は、各モデルが外乱を受けたときの実験結果を示しています。すべてのモデルのパフォーマンスが急激に低下し、最もパフォーマンスが優れているRoBERTa-Large MNLIモデルは、パフォーマンスの低下が最も大きいモデルです。ただし、RoBERTa-Large MNLIは変数再構築に対して最も堅牢であり、67.87という高いF1スコアを維持しています。一般的に、既存の LLM の堅牢性は比較的低いです。 上記の全体的な結果に加えて、本研究では、6 つの因果関係タイプにおける最強モデル RoBERTa-Large MNLI のパフォーマンスを調査するために、きめ細かい分析も実施しました。 下の表6(a)に示すように、RoBERTa-Large MNLIモデルは、「Is-Parent」、「Is-Descendant」、「Has-Confounder」などの関係を判断する際に非常に優れたパフォーマンスを発揮し、F1スコアは96%を超えています。ただし、「Has-Collider」関係ではパフォーマンスが若干低下します。これは、コライダー関係が最も特殊なタイプであり、2 つの変数のみの無条件独立性と、共通の子孫を持つことを条件とする相関関係に基づく V 構造の識別を必要とするためであると考えられます。 興味のある読者は、研究の詳細について原著論文を読むことができます。 |
<<: テクノロジーはどのようにして人々を怠惰にするのでしょうか?
>>: 社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露
11月16日、Googleは、動画に関する質問に答えたり、新たな記録を樹立したりできる小型人工知能モ...
CISO、CSO、およびそのチームは毎日、侵害を検出し、リスクを評価し、適切に対応するという課題に直...
2013年のノーベル化学賞受賞者であるアリエ・ワーシェル氏は、COVID-19パンデミックと製薬業...
人工知能の発展は人類の生存を脅かすという見方は以前からあった。人類の知能の典型的な反映である囲碁で、...
トレーニング データは必要ありません。「宿題をしているバナナマン」などの文をモデルに説明するだけです...
アルパカファミリーの「最強のオープンソースコードモデル」が「スーパーカップ」を発売しました——今朝、...
組織は、全員を関与させれば、AI を活用してビジネスを成長させることができます。人工知能への投資は、...
[[390945]] [51CTO.com 速訳]人工知能の普及は人々に大きな期待をもたらしました。...
[51CTO.com クイック翻訳]現在の世界は、コンクリートやアスファルトでできた巨大な迷路のよう...
「私たちの論文を溜め込むのはやめてください」ネイチャー誌のコラムに学者の投稿が掲載される。記事は、...
自動運転技術が業界全体で開発のマイルストーンに到達し続ける一方で、都市は自動運転車(AV)の目標を補...
[[422361]] BERT や GPT などの大規模な事前トレーニング済みモデル (PTM) ...
この記事は、Google Brain エンジニアの Zhou Yuefeng 氏が QCon Sha...
過去 10 年間で、5G、ビッグデータ、クラウド コンピューティングなどの新興テクノロジーの登場によ...
2017年、人工知能はあらゆる面でブームを巻き起こしました。イーロン・マスクからマーク・ザッカーバー...