トポロジカルデータ分析（TDA）は、人工知能のブラックボックスを破ると期待される魔法のアルゴリズムです。

本稿では、トポロジカルデータ分析 (TDA) の基本原理を紹介し、事例を示し、この方法が視覚分析を効率的に実行でき、人工知能のブラックボックスに説明可能性を提供できると期待できることを指摘します。最近、USTCのPan Jianwei氏のチームは、光子量子プロセッサ上でTDA法を実行することに成功しました。TDAの量子バージョンは、従来の*** TDAアルゴリズムの指数関数的な加速を実現できます。

機械学習と人工知能はどちらも「ブラックボックス」技術です。これは、データ研究に機械学習と人工知能を使用することに対する批判の 1 つです。自動的に有用な回答を提供することはできますが、人間が解釈できる出力を提供することはできません。その結果、彼らが何をしているのか、どのようにやっているのかが理解できないことがよくあります。

Ayasdi 社はこの問題に対して、同社のコア技術であるトポロジカルデータ解析 (TDA) を活用したソリューションを提供しています。この方法は、詳細な説明とともに強力な出力を提供します。しかし、本論文では、TDA に対する現在の「比較」アプローチを超えて研究を拡張します。現在の方法では、データセットのデータポイント (行) から構築されたトポロジカルネットワークが使用されます。この新しい研究では、Ayasdi はネットワークに機能 (列) も組み込んでおり、改善された、より解釈しやすい結果を示しています。

まず、この解釈方法がどのように機能するかを説明しましょう。

いくつかのサブグループを特定したデータセットがあるとします。これらのサブグループは、データの不可欠な部分である場合 (たとえば、病気には炎症性腸疾患などのさまざまな形態がある、またはデータに生存者/非生存者の情報が含まれている) や、パーティション分割またはホットスポット分析による行セットのトポロジモデルによって作成される場合もあります。

これらのサブグループのうち 2 つを選択すると、Ayasdi 手法により、研究者は Kolmogorov-Smirnov スコア (KS スコア) に基づいて特徴のリストを生成できます。各機能には 2 つの分布があり、サブグループごとに 1 つあります。 KS スコアは 2 つのサブグループ間の差を測定します。この構造には、標準的な統計的意味での P 値が関連付けられています。

その説明は、最も高い位置にランク付けされた変数が 2 つのサブグループを最もよく区別する変数であり、残りの特徴は識別力に応じてランク付けされるというものです。したがって、解釈メカニズムの出力は、順序付けられた機能のリストになります。多くの場合、リストを調べることで、異なるサブグループ間の違いの原因となる要因を調べることで、有用な解釈が得られます。

ただし、リストの解釈は複雑になることがよくあります。 Google 検索後の長い回答リストと同様に、リストの上位に不釣り合いなほど多くの回答が表示され、下位の回答は無視されていることに気付く可能性が高くなります。こうした「比較リスト」の透明性とわかりやすさをさらに向上させるにはどうすればよいでしょうか?

Ayasdi によって構築されたトポロジカルモデルでは、データセットの行のデータマトリックスと非類似度または距離関数が与えられていることを前提としていることを覚えておくことが重要です。通常、距離関数はユークリッド距離ですが、相関距離、さまざまな角度距離など、他の距離関数を選択することもできます。データ行列 M を取得したら、それを新しい行列 M^T に転置することができます。ここで、次の図に示すように、元の行列の列は転置行列の行であり、その逆も同様です。

この操作を完了すると、M^T 行列の行セット (つまり、元の行列 M の列) のトポロジモデルを構築できます。セットでは、さまざまな距離関数を選択できます。これについては詳しく説明しません。要約すると、データマトリックスの任意の行に共通するオプションは、この新しいマトリックスにも適用されます。

ここで、上記のデータセットにデータマトリックス M とサブグループ G があるとします。サブグループは、事前情報を通じて、または M 行列の行のトポロジカルモデル分割を通じて取得できます。行列 M の各列 c_i (つまり、転置行列 M^T の各行) について、サブグループ G の各行の平均、つまり c_i の平均を計算できるようになりました。

これをfi,Gと表記します。この数に i が含まれる場合、M^T の行の集合に対する関数が得られます。したがって、再び、M 行列の行のサブセットは、M^T の行のセット上の関数を生成します。 Ayasdi トポロジーモデルの特徴の 1 つは、ノードに対応する行を通るデータマトリックスの行関数の平均値を使用して、トポロジーモデルのノードを色分けできることです。これはデータの特性を理解するのに非常に役立つ方法です。特に、M^T 行列の行の集合におけるサブグループ G の色付けを使用して、グループの特性を調べることができるようになりました。

以下の例をご覧ください。

オランダ癌研究所 (NKI) は、272 人の乳がん患者のサンプルのマイクロアレイ分析を含むデータセットを構築しました。この場合のマイクロアレイ解析では、研究のためにスクリーニングされた遺伝子セット内の各遺伝子の mRNA 発現レベルが提供されます。これらの遺伝子の中から、発現レベルが最も高い 1500 個の遺伝子を選択しました。 272 x 1500 のマトリックスが得られ、1500 列はデータセット内で最も分散が大きい 1500 個の遺伝子に対応し、272 行はサンプルの総数に対応します。このデータセットについては、[1]と[2]でデータ行列の行セットのトポロジカル解析が実行されています。

トポロジーモデルを以下に示します。

上の画像は、トポロジモデルが長い「トランク」部分で構成され、それが 2 つの「ブランチ」に分割されていることを示しています。データセットには、eventdeath というバイナリ変数があります。患者が研究期間中生存した場合は eventdeath = 0、患者が死亡した場合は eventdeath = 1 となります。興味深いことに、患者の生存率はグラフの構造に対応しています。 1 つの方法は、変数 eventdeath の平均によって色を付けることです。結果は以下の通りです。

上の「小枝」は濃い青色であることがわかります。これは、eventdeath 変数の値が低いことを示しています。実際、その値はゼロであり、すべての患者が生き残ったことを意味します。しかし、下側の「小枝」の生存率ははるかに悪く、先端の節はほぼすべて生存できなかった患者で構成されていました。私たちはこの現象を理解し、データ内のどの特徴が「小枝」の生成に関連しているかを確認し、変数 eventdeath の異なる動作を説明したいと考えています。これを行うには、トポロジモデルからさまざまなサブグループを選択できます。

上の図では、グループ A は生存率の高いグループ、グループ B は生存率の低いグループ、グループ C は他の 2 つのグループとの差が最も大きいグループ (グループ間の距離に基づいて決定) として特徴付けられます。前述のように、これら 3 つのグループに基づいて、1500 個の機能に対して 3 つの関数を作成できます。

一連の機能のトポロジーをモデル化すると、各機能の平均によって色分けすることができます。以下の 3 つの画像に結果を示します。

グループ A とグループ B の色彩を比較すると、かなり大きな違いがあることがわかりました。グループ A で色付けすると、特定の領域が明るい赤色で表示されますが、グループ B で色付けすると、対応する領域が明るい青色で表示されます。結果は下の図に示されています。左のモデルがAグループのカラーリング、右のモデルがBグループのカラーリングです。

グループIとグループIIの色が明らかに異なります。グループ I は、グループ A では主に赤、グループ B では主に青でした (小さな固相領域を除く)。グループ II はその逆で、グループ A は青、グループ B は赤です。これらのグループは、エストロゲン受容体の発現が高いことと関連している可能性があり、グループ I では正の相関関係があり、グループ II では負の相関関係があります。エストロゲン受容体の発現が乳がんの生存に対する「強力なシグナル」であることはよく知られています。 3 つのグループすべてを比較すると、次のようになります (以下を参照)。

また、グループ C はグループ B の「弱い」形態であるように思われ、右上隅の青い領域が小さく、下の領域の赤が弱いことがわかります。左側の「島」でも、グループ C はグループ A および B よりも赤色が強くなっています。グループ A、B、C の右上隅にある濃い赤色のブロックにどの遺伝子が関与しているかを理解することは非常に興味深いでしょう。さらに、どの遺伝子が左側の「島」の発現に関与しているかを研究することも興味深いでしょう。これらの遺伝子セットを理解するには、さまざまなネットワークベースの生物学的経路解析ツールを使用する必要があります。

要約すると、データセットから洞察を見つけるために行のセットを直接調べるのではなく、トポロジカルモデリングを使用してデータセット内の特徴空間をモデル化する方法を示しました。 4 つ以上の特徴を持つデータセットは、標準的なグラフィカル手法を使用して直接直感的に理解することはできませんが、数百または数千の特徴を持つデータセットはこの方法で簡単に理解できます。このアプローチは、ゲノムデータやより一般的な生物学的データの分析でよく見られる、一貫して動作する特徴のグループを直接識別します。

参考文献

[1] M. Nicolau、A. Levine、G. Carlsson、「トポロジーベースのデータ分析により、ユニークな変異プロファイルと優れた生存率を持つ乳がんのサブグループが特定される」、Proc. Natl. Acad. Sci.、vol. 108、no. 17、7265-7270、(2011)。

[2] P. Lum、G. Singh、A. Lehman、T. Ishkhanov、M. Vejdemo-Johansson、M. Alagappan、G. Carlsson、「トポロジーを用いた複雑なデータの形状からの洞察の抽出」、Scientific Reports 3、記事番号1236、(2013)。

<<: GitHub上の8,800のオープンソース機械学習プロジェクトを比較し、上位30を選出しました。

>>: 中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。