AIは学習しません！ネイチャー誌の最新研究が人工知能のブラックボックスを解読

人工知能（AI）は急速に進歩していますが、人間にとってその強力なモデルは「ブラックボックス」です。

モデルの内部の仕組みや、その結論に至る仕組みは理解できません。

しかし最近、ボン大学の化学情報学の専門家であるユルゲン・バヨラス教授とそのチームが大きな進歩を遂げました。

彼らは、医薬品研究に使われる特定の人工知能システムがどのように機能するかを明らかにする技術を設計した。

彼らの研究結果は、これらの AI モデルが、薬の有効性を予測するために、特定の化学相互作用を学習するのではなく、主に既存のデータを思い出すことに依存していることを示唆しています。

—つまり、AI の予測は単に記憶をつなぎ合わせることに基づいており、機械学習は実際には学習していないのです。

彼らの研究結果は最近、Nature Machine Intelligence誌に掲載された。

論文アドレス: https://www.nature.com/articles/s42256-023-00756-9

製薬分野では、研究者たちは病気と闘うための効果的な有効物質を熱心に探しています。どの薬物分子が最も効果的なのでしょうか?

通常、これらの強力な分子（化合物）は、特定の一連の生理学的作用を誘発する酵素または受容体として機能するタンパク質にドッキングします。

特別なケースでは、一部の分子は、過剰な炎症反応など、体内の有害反応をブロックする役割も担っています。

考えられる化合物の数は膨大であり、効果的な化合物を探すのは干し草の山から針を探すようなものです。

そこで研究者らはまず AI モデルを使用して、どの分子がそれぞれの標的タンパク質に最もよくドッキングしてしっかりと結合できるかを予測しました。これらの薬剤候補はその後、実験研究でさらに詳しくスクリーニングされます。

人工知能の発展以来、創薬研究においてAI関連技術がますます導入されるようになりました。

たとえば、グラフニューラルネットワーク (GNN) は、特定の分子と標的タンパク質の結合強度を予測するのに適しています。

グラフは、オブジェクトを表すノードと、ノード間の関係を表すエッジで構成されます。タンパク質-リガンド複合体のグラフ表現では、グラフのエッジはタンパク質またはリガンドのノードを接続し、物質の構造またはタンパク質とリガンド間の相互作用を表します。

GNN モデルは、X 線構造から抽出されたタンパク質-リガンド相互作用マップを使用して、リガンドの親和性を予測します。

ユルゲン・バヨラス教授は、GNN モデルは私たちにとってブラックボックスのようなもので、どのように予測を行うのか全く分からないと述べました。

ユルゲン・バヨラート教授は、ボン大学のLIMES研究所、ボン・アーヘン国際情報技術センター、およびラマー機械学習・人工知能研究所に勤務しています。

人工知能はどのように機能するのでしょうか?

ボン大学化学情報学部の研究者らは、ローマ・ラ・サピエンツァ大学の同僚らと共同で、グラフニューラルネットワークが実際にタンパク質とリガンドの相互作用を学習するかどうかを詳細に分析した。

研究者らは、特別に開発した「EdgeSHAPer」手法を使用して、合計 6 つの異なる GNN アーキテクチャを分析しました。

EdgeSHAPer プログラムは、GNN が化合物とタンパク質間の最も重要な相互作用を学習したかどうか、または他の方法で予測を行ったかどうかを判断できます。

科学者たちは、タンパク質-リガンド複合体（標的タンパク質への作用様式と結合強度が既知である化合物）の構造から抽出したグラフを使用して、6 つの GNN をトレーニングしました。

トレーニングされた GNN は他の複合体でテストされ、EdgeSHAPer を使用して GNN がどのように予測を生成するかが分析されます。

「GNN が意図したとおりに動作するには、化合物と標的タンパク質間の相互作用を学習し、特定の相互作用を優先して予測を行う必要があります。」

しかし、研究チームの分析によると、6つのGNNのいずれもこれをほぼ達成できなかった。ほとんどの GNN は、主にリガンドに焦点を当てて、いくつかのタンパク質と薬物の相互作用を学習しただけです。

上の図は 6 つの GNN での実験結果を示しており、色分けされたバーは EdgeSHAPer によって決定された各予測の上位 25 のエッジにおけるタンパク質、リガンド、相互作用の平均割合を示しています。

緑色の相互作用はモデルが学習する必要があるものですが、実験全体の小さな割合を占めるに過ぎず、リガンドを表すオレンジ色のバーが最大の割合を占めていることがわかります。

分子が標的タンパク質にどの程度強く結合するかを予測するために、モデルは標的タンパク質に関係なく、トレーニング中に遭遇した化学的に類似した分子とその結合データを主に「記憶」します。これらの記憶された化学的類似性が本質的に予測を決定します。

これは、数を数えているように見える馬が、仲間の表情や身振りの微妙な違いに基づいて、意図された結果を推測するという「賢いハンス効果」を彷彿とさせます。

これは、化学知識とより単純な方法を使用して同等の品質の予測を行うことができるため、GNN のいわゆる「学習能力」が維持できず、モデルの予測が大幅に過大評価されている可能性があることを意味している可能性があります。

しかし、この研究では別の現象も発見されました。試験化合物の効力が増すと、モデルはより多くの相互作用を学習する傾向があったのです。

おそらく、表現とトレーニング手法を変更することで、これらの GNN を望ましい方向にさらに改善できる可能性があります。しかし、分子グラフから物理量を学習できるという仮定は、一般的には慎重に扱う必要があります。

「AIは黒魔術ではありません。」

<<: 副操縦士をもっと追加してください!マイクロソフトは大きな進歩を遂げており、個人ユーザーはGPT-4 Turboへの優先アクセスを持っている

>>: 拡散モデル画像理解力がSOTAをリフレッシュ！ ByteDance Fudanチームが新たな「メタプロンプト」戦略を提案

AIは学習しません！ネイチャー誌の最新研究が人工知能のブラックボックスを解読

人工知能はどのように機能するのでしょうか?

Facebookは視覚障害者向けに写真の説明を改善するためにAIを活用

モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

究極の「公開」: GPT-4 モデルのアーキテクチャ、トレーニングコスト、データセット情報がすべて公開されます

他人があなたのコンピュータに触れることをもう恐れる必要はありません! Pythonによるリアルタイム監視

日本の警察は、AIを使って不審者の動きや表情を分析し、「一匹狼」犯罪に対処する予定

AIは数分間の記録に基づいて、人がCOVID-19に感染したかどうかを判断できますか？

いつ表面的に調べ、いつ深く掘り下げるべきか - 機械学習は1ページで説明できるものではありません

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

ブロックチェーンとAI: 完璧な組み合わせ

推薦する

アメリカの博士号取得者がガールフレンドのAIボーイフレンドに勝利！ 7ページのエッセイでLLMのIQは低下し、「ネガティブな彼氏」に育てられ、関係はうまく修復された。

サイバーセキュリティにおける生体認証：データ保護の強化

Googleが独自のAIチップを開発することを選択した6つの理由

この新しい AI エレクトロニクスにはシリコンが使われていません。脳のニューロンをシミュレートすることができ、サイエンス誌にも掲載された。

フロントエンドの一般的な暗号化アルゴリズムについてお話ししましょう

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

AI CPUとMicrosoft Windows 12のリリースにより、2024年には世界のAI PC出荷台数が1,300万台を超えると予想

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

特徴エンジニアリングとは何ですか?なぜ自動化が必要なのでしょうか?

無人スーパーマーケットの仕組みをご存知ですか？

アリババDAMOアカデミーがAIの人間の言語理解の向上を支援する論文でSemEval最優秀賞を受賞

ChatGPTの最強のライバルのアップデート！コンテキストの長さは 2 倍になり、API 価格は 30% 近く下がりました。

【専門家がここにいるエピソード3】大量ログ分析とインテリジェントな運用・保守

3Dマスクは顔認識を破ることができるのか？アリペイとWeChatが緊急対応