相関関係は因果関係ではない。ディープラーニングによりAIは「10万のなぜ」を問うことができる

[[274938]]

ビッグデータダイジェスト制作

出典: searchenterpriseai

編纂者：張大毓

人生経験から、相関関係が直接的に因果関係につながることはないことがわかりますが、日常生活でも学術研究でも、因果関係の説明は相関関係よりもはるかに重要です。多くの場合、私たちは出来事間の因果関係についても困惑します。

このプロセスを AI に引き継いだらどうなるでしょうか?

AI はディープラーニング技術を使用して、関連性のある関係モデルを構築できます。しかし、物事が起こる理由を判断するために使用される因果的ディープラーニングはまだ初期段階にあり、通常のニューラルネットワークよりも自動化がはるかに困難です。

ほとんどの AI は、大量のデータを分析して隠れたパターンを見つけることで機能します。「明らかに、これによって『何』は理解できるが、『なぜ』を理解することはほとんどできない」と、世界的なITサービス企業L&Tインフォテックの執行副社長兼最高データ分析責任者であるソウメンドラ・モハンティ氏は語った。

この区別の影響は非常に大きいです。人工知能を構築する究極の目標は、この要因がなぜその要因に影響を与えるのかを答えられるように人工知能を訓練することであり、そのため多くの研究者が現在そこに注目しています。

カリフォルニア大学ロサンゼルス校の教授であるジュディア・パール氏は、ベイジアンネットワーク統計分析の実装に関する研究で重要な進歩を遂げました。パール氏は、計算可能なフレームワークで事象の原因を区別できる因果関係図を描くためのフレームワークを開発しています。

因果関係を分析する上での最大の課題の 1 つは、専門家が事象の原因について主観的な判断を下し、さまざまな分析手法を使用してそれらを分離することです。これは、統計的機械学習が追求する「客観性」とはまったく対照的です。長期的には、因果研究は世界をよりよく理解するのに役立ちます。短期的には、因果分析は機械学習モデルの結果をよりよく説明することもできます。

AIが魔法のように未来を予測してくれることを期待するのはやめましょう

「ビジネスリーダーは通常、ブラックボックス技術を信用しないが、AIには非常に期待している」と、インフォメーション・ビルダーズのマーケティング担当副社長ジェイク・フライヴァルド氏は語った。同氏は、ビジネスプロセスをAIアルゴリズムに委ねることは、2歳児に車を運転させるのと同じくらい危険である可能性があることに起業家が気づきつつあると語った。

問題は、分析 AI は主にデータセット内の相関関係を見つけるために使用されますが、相関関係は因果関係を示唆するだけで、何かが起こった理由を正確に説明できないことです。相関関係は、次に何が起こる可能性があるかを示すことしかできません。

「モデルで原因と結果を解明できればできるほど、現実に基づいて、なぜ物事が起こったのか、次に何が起こるのかをより正確に評価できるようになります」とフライヴァルト氏は言う。「そうして初めて、AI はうまく仕事をすることができます。そうでなければ、結果は悲惨なものになる可能性があります。」

もはや単なる曲線フィッティングではない

適合曲線は、「次に良いオファーは何ですか？」「これは詐欺ですか？」「それは猫ですか？」などの質問に答えるのに最適です。

「しかし現実の世界では、多くの問題は単に曲線を当てはめるだけでは解決できない」とモハンティ氏は言う。複数の要因で製品の好みを予測できる場合、企業はどの要因を選択し、それらを重要度順にどのようにランク付けすればよいでしょうか。さまざまな変数を単に強さの順にランク付けすることは、いくつかの要因を個別に選択し、予測される結果への貢献を個別に評価することとは異なります。

「相関関係は観察できるが、因果関係を証明することも、説明することもできない」とモハンティ氏は語った。因果関係は、「変化を起こすにはどのような行動を取るべきか？」または「モデルの基本的な仮定の一部を変更すると何が起こるか？」という質問に答えます。

因果深層学習技術（構造方程式モデリング（SEM）とも呼ばれる）は長年にわたって使用されてきました。しかし、これらの技術は学術研究に限定されており、商業分野にはまだ応用されていません。

モンテカルロシミュレーション、マルコフ連鎖分析、ナイーブベイズ、確率論的モデリングは、今日一般的に使用されている手法の一部ですが、因果関係を分析できるものはほとんどありません。因果推論用の DAGitty (因果モデルと Microsoft の DoWhy ライブラリを作成、編集、分析するためのブラウザベースの環境) などのオープンソースパッケージもあります。しかし、これらはまだ発展途上です。

自動在庫管理システムのメーカーである Pinsa Systems の CEO 兼社長である Richard Schwartz 氏は、高レベルでは AI アプリケーションは観察したパターンに基づいて一連のアクションを実行すると述べています。ディープラーニングでは、統計的手法を使用してパターンを発見します。 AI に因果関係の理解を組み込むための別のアプローチでは、ルールベースのシステムの開発が必要です。このようなシステムは、「右に 3 回曲がることは左に曲がることと同じである」など、他の種類の客観的な事実から結論を導き出すことができます。

ルールは因果的または認知的であり、入力に基づいて結果をモデル化するのに役立ちますが、欠点もあります。「因果ルールは定義が難しく、明示的に定義するのはさらに難しいことがよくあります。」

[[274939]]

潜在的な解決策としては、両方のアプローチを組み合わせることが挙げられます。たとえば、ニューラルネットワークの解釈可能性モジュールを作成するなどです。このシステムの因果深層学習モデルは、結論に到達する方法の認知モデルを構築するための、より手間のかかる方法です。

もう一つの有望な因果 AI 技術は、強化学習による「デモンストレーションからの学習」です。これは、コンピューターに実行した例を与え、コンピューターがその技術を適応させて問題を独自に解決できるようにするものです。

Pensa は、在庫管理ツールで 2 種類の AI を使用して、店舗の棚への在庫の補充に関連する問題を解決します。主力製品では、カメラからのコンピュータービジョン入力を使用して棚にあるもの (たとえば、ハインツケチャップ) や棚の配置 (たとえば、ハインツ製品は通常、ハンター製品の隣にある) を識別するなどの問題を解決するためにニューラルネットワークを使用しています。

因果モデルを使用して、「ハインツケチャップの在庫が少なくなっています」や「ハインツケチャップの在庫が完全になくなりました」などの自動アラートを生成します。この結論に達するには、システムは製品を認識するだけでなく、棚にある商品に関連する在庫管理ルールと、それらの商品を補充することの意味を理解する必要があります。

人間は一般的に、結論を導き出すための経験則を開発するなど、認知的な結論に到達するのが非常に得意です。「それがAIのボトルネックだ」とシュワルツ氏は言う。

モデルフリー因果関係

テキサス大学オースティン校の人工知能教授スコット・ニーカム氏は、強化学習は本質的に因果関係がある、なぜならエージェントはさまざまなアプローチを試し、試行錯誤を通じて結果に到達する方法を学習するからだと述べた。このタイプの学習は「モデルフリー学習」と呼ばれ、世界の仕組みを学習しなくても正しい、または効率的な動作を学習できるため人気があります。

言い換えれば、エージェントは、アクションが世界に直接どのように影響するかではなく、アクションと結果の間の因果関係を学習します。例えば、水と火の関係を理解していなくても、火の上にバケツをひっくり返して水を注ぎ、火を消すことができます。

モデルフリー学習は諸刃の剣です。モデルがなければ、エージェントは問題の変化に応じてその解決方法を一から学習する必要があります。

前の例では、エージェントにバケツの水の代わりにホースが与えられた場合、エージェントは何をすべきか分からず、ゼロから学習する必要があります。これは、エージェントが「バケツを回して」火を消すという動作を学習しただけで、水と火の因果関係を学習しなかったためです。

[[274940]]

「こうした理由から、欠点はあるものの、モデルベースの強化学習への関心が高まっています」と Nickum 氏は言います。「たとえば、モデルの信頼性をどのように測定しますか? モデルが間違っている場合はどうしますか? 大規模で長期的な計画における不確実性をどのように管理しますか?」

機械学習モデルの解釈

説明可能性の本質は次のとおりです。説明では、ディープラーニングモデルの動作の原因となるすべての要因を特定し、定量化できなければなりません。この文脈では、因果関係はモデルが解決しているタスクではなく、モデル機能そのものを指す、と説明可能なAIエンジン企業であるフィドラー・ラボのデータサイエンス責任者、アンクル・タリー氏は述べた。

ディープラーニングモデルは複雑なため、完全に解釈することは困難です。推論されたモデル関数の各機能の重要性を分析することは困難です。初期の因果ディープラーニング手法では、データセットに対するモデルの予測を観察し、それを説明するより単純で解釈可能なモデルを適合させていました。

「残念ながら、これらの方法は観察データから因果関係を推測する傾向があります」とタイリー氏は述べ、モデルの予測に実際に関連する特徴と、それと相関関係にある特徴を区別することはできないとしている。

最近、協力ゲーム理論のシャプレー値に基づいた異なるアルゴリズムのセットが登場しました。これらのアルゴリズムは、反事実的入力を使用してモデルを調査します。しかし、FiddlerLabs の調査では、データセットが正規分布していない場合、これらのアルゴリズムはバイアスにつながることが多いことが判明しました。タリー氏は、説明モデルを特定のデータセットから切り離す方法に取り組んでいると述べた。

この種の研究は、モデルが依存することを学習した誤った相関関係を特定するのに役立ちます。たとえば、最近、ハッカーは特定の種類のデータを追加することで、Cylance のマルウェア対策エンジンを偽造することができました。このリスクを軽減するための最初のステップは、モデルの予測に大きな影響を与える因果的特徴を特定することです。

「これらの機能を研究すれば、自分たちもそのタスクに関与しているかどうか、あるいはサイランスの場合のように敵に悪用されているかどうかを調べることができる」とタイリー氏は語った。

AIを盲目的に信頼してはいけない

Information Builders の Freiwald 氏によると、人間は現在、ディープラーニングを通じて AI よりも優れた因果関係を確立できるとのことです。これには、データセットの制限、バイアスを導入する可能性のあるフィールドの削除、学習プロセスの形成が含まれます。人間は原因と結果に焦点を当て、アルゴリズムに学習を任せます。それはフィードバックループですが、人が不可欠です。

AI によって因果関係を判断できれば、AI は人間を必要とせずに学習プロセスを再構築できます。理論的には、AI は任意のデータセットを使用して因果関係を判断し、人間が予想もしなかった方法で学習することができます。

まだ不明な点が多々あります。人間は幅広い知性を活用して、機械ではまだできない方法で問題を解決することができます。最近の試みは、多くの厄介な複雑な問題も生み出している。「我々は人工知能の汎用性を高めたいと考えているが、必要なデータが増えるほど誤検知の可能性も高まる。これが機械の限界であり、機械を盲目的に信頼することはできない」とフライヴァルト氏は語った。