視覚的な「脳の読み取り」：脳の活動から見える世界を再構築する

人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活動を引き起こします。認知神経科学の分野では、脳活動から視覚情報を解読することが重要な課題となっています。機能的磁気共鳴画像法（fMRI）は、効率的で非侵襲的な技術として、画像カテゴリなどの視覚情報を回復および分析する上で重要な役割を果たします。

しかし、このタスクは、fMRI 信号のノイズの性質と脳の視覚表現の複雑さのために、かなりの課題に直面しています。この問題に対処するため、本論文では、脳活動のノイズを識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置き、脳活動から高解像度で意味的に正確な画像を再構成することを目的とした 2 段階の fMRI 表現学習フレームワークを提案します。

論文リンク: https://arxiv.org/abs/2305.17214

プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/

論文で提案された方法は、二重コントラスト学習、クロスモーダル情報交差、拡散モデルに基づいています。関連する fMRI データセットにおける以前の最良モデルと比較して、評価指標が 40% 近く向上しました。生成された画像の品質、可読性、意味的関連性は、既存の方法と比較して著しく向上しました。この研究は、人間の脳の視覚知覚メカニズムを理解するのに役立ち、視覚脳コンピューターインターフェース技術の研究を促進するのに役立ちます。関連するコードはオープンソース化されています。

機能的磁気共鳴画像法（fMRI）は神経反応の分析に広く使用されていますが、そのデータから視覚画像を正確に再構築することは依然として困難です。主な理由は、fMRI データには複数のソースからのノイズが含まれており、神経活性化パターンが隠され、解読が困難になる可能性があるためです。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑で多段階であるため、fMRI 信号は複雑な非線形重ね合わせとなり、逆転や解読が困難になります。

リッジ回帰などの従来の神経デコード方法は、fMRI 信号を対応する刺激に関連付けるために使用されますが、刺激と神経反応の間の非線形関係を効果的に捉えられないことがよくあります。最近では、生成的敵対ネットワーク (GAN) や潜在的拡散モデル (LDM) などの深層学習技術が採用され、この複雑な関係をより正確にモデル化しています。しかし、視覚に関連する脳活動をノイズから分離し、正確に解読することは、この分野における主要な課題の 1 つとして残っています。

これらの課題に対処するために、本研究では、脳活動のノイズを効果的に識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置くことができる 2 段階の fMRI 表現学習フレームワークを提案します。この方法は、50 のカテゴリで高解像度かつ意味的に正確な画像を生成する際に、最先端の方法よりも 39.34% 高いトップ 1 精度を達成します。

方法の概要

fMRI表現学習（FRL）

ステージ 1: 事前トレーニングデュアルコントラストマスクオートエンコーダ (DC-MAE)

本論文では、異なる集団における共通の脳活動パターンと個々のノイズを区別するために、ラベルなしデータを使用して fMRI 表現を事前トレーニングする DC-MAE 技術を紹介します。 DC-MAE はエンコーダーとデコーダーで構成され、マスクされた fMRI 信号を入力として受け取り、マスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「二重コントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラストプロセスに参加することを意味します。

対照学習の最初の段階では、n 個の fMRI サンプル v を含むバッチ内の各サンプルがランダムに 2 回マスクされ、2 つの異なるマスクバージョンと対照用の正のサンプルペアが生成されます。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、fMRI エンコーダーに個別に入力されます。デコーダーはこれらのエンコードされた潜在表現を受け取り、予測を生成します。モデルは、InfoNCE 損失関数によって計算された最初のコントラスト損失、つまりクロスコントラスト損失を使用して最適化されます。

対照学習の第 2 段階では、マスクされていない元の画像とそれに対応するマスクされた画像が、自然な正のサンプルのペアを形成します。ここではデコーダーによって予測された画像を表します。 2 番目のコントラスト損失 (自己コントラスト損失とも呼ばれます) は、次の式に従って計算されます。

自己コントラスト損失を最適化することで、閉塞部分の再構成が可能になります。またはのいずれの場合も、負のサンプルは同じインスタンスのバッチから取得されます。およびは次のように一緒に最適化されます。ここで、ハイパーパラメータおよびは各損失項の重みを調整するために使用されます。

フェーズ2: クロスモーダルコーチングを使用して適応する

fMRI 記録の信号対雑音比が低く、畳み込みが激しい性質を考えると、fMRI 特徴学習者は、視覚処理に最も関連し、再構築に最も有益な脳活性化パターンに焦点を当てることが重要です。

事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援により調整され、fMRI 再構成が達成され、第 2 段階では同じプロセスが繰り返されました。具体的には、n 個のサンプルのバッチからサンプルとそれに対応する fMRI 記録された神経反応が選択されます。ブロッキングとランダムマスキングの後、およびはそれぞれおよびに変換され、次にそれぞれ画像エンコーダーとfMRIエンコーダーに入力されて、およびが生成されます。 fMRIを再構築するために、クロスアテンションモジュールを使用して統合します。

W と b はそれぞれ対応する線形層の重みとバイアスを表します。はスケーリング係数であり、キーベクトルの次元です。 CA は、cross-attention の略です。追加した後、再構成のためにfMRIデコーダーに入力され、次のようになります。

同様の計算が画像オートエンコーダでも実行されます。画像エンコーダの出力は、クロスアテンションモジュールを介しての出力と結合され、画像のデコードに使用されます。その結果は次のようになります。

fMRI と画像オートエンコーダは、次の損失関数を最適化することによって共同でトレーニングされます。

潜在拡散モデル (LDM) を使用して画像を生成する

FRL の第 1 段階と第 2 段階のトレーニングを完了した後、fMRI 特徴学習器のエンコーダーを使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順方向拡散プロセスと逆方向ノイズ除去プロセスが含まれます。フォワードプロセスでは、変動する分散を持つガウスノイズを徐々に導入することで、画像を徐々に通常のガウスノイズに劣化させます。

この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚知識を抽出し、fMRI データを条件として使用して画像を生成します。ここでは、安定拡散研究の提案に従って、fMRI 情報を LDM に組み込むためにクロスアテンションメカニズムが採用されています。条件情報の役割を強化するために、ここではクロスアテンションとタイムステップコンディショニング法が採用されています。トレーニングフェーズでは、 FRLの第1ステージと第2ステージでトレーニングされたVQGANエンコーダーとfMRIエンコーダーを使用して画像uとfMRI vを処理し、LDMを変更せずにfMRIエンコーダーを微調整します。損失関数は次のとおりです。

ここで、拡散モデルのノイズスキームです。推論フェーズでは、プロセスは時間ステップ T の標準ガウスノイズから開始され、LDM は逆のプロセスを順次実行して、与えられた fMRI 情報に基づいて、隠れた表現のノイズを徐々に除去します。時間ステップ 0 に達すると、潜在表現は VQGAN デコーダーを使用して画像に変換されます。

実験

再建の結果

DC-LDM、IC-GAN、SS-AEなどの先行研究と比較し、GODおよびBOLD5000データセットで評価したところ、本研究で提案されたモデルは精度の点でこれらのモデルを大幅に上回り、DC-LDMおよびIC-GANと比較してそれぞれ39.34%および66.7%の改善が見られました。

GOD データセットの他の 4 つの被験者に対する評価では、DC-LDM がテストセットで調整を許可された場合でも、提案モデルは 50 モダリティのトップ 1 分類精度で DC-LDM を大幅に上回り、さまざまな被験者の脳活動を再構築する際の提案モデルの信頼性と優位性が実証されました。

実験結果によると、提案された fMRI 表現学習フレームワークと事前トレーニング済みの LDM を使用すると、脳の視覚活動をより適切に再構築でき、現在のベースラインを大幅に上回ることができます。この研究は、ニューラルデコードモデルの可能性をさらに探求するのに役立ちます。

<<: CMU が Gemini、GPT-3、Mistral8×7B を権威ある方法で比較します。 GPT-3.5は依然としてGeminiに勝っているが、オープンソースモデル間のギャップは依然として大きい

>>:

視覚的な「脳の読み取り」：脳の活動から見える世界を再構築する

方法の概要

実験

人工知能技術は建設業界をどのように変えるのでしょうか?

人工知能はメタバースのビジョンの実現に役立つでしょうか?

道に迷う心配はありません。AI マップが目的地までご案内します。

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

データサイエンスと人工知能の専門家がプログラミングスキルを向上させる方法

機械学習の博士号を取得するためにゼロから 12 年間勉強する価値はあるでしょうか?

大規模機械学習フレームワークの4つのレベル

人工知能が消去された画像を完璧な結果で再現します!

推薦する

ロビン・リー：百度はすでに独自のハイエンドチップを製造する能力がある

ナノロボットは将来さまざまな場面で使用される可能性がある

未成年者の顔情報の処理には保護者の個別の同意が必要です

3分で振り返る！2021年9月のロボット分野の重要な動向を概観

転移学習により、ディープラーニングは難しくなくなりました...

2021年に理解すべき5つのAIコンセプト

機械学習が自閉症の「非コード変異」の秘密を解明

あらゆる角度から監視されることへの不安：AI はプライバシー侵害にどう対抗できるか？

LLM の成功に欠かせない基礎: RLHF とその代替技術

Kaggle機械学習モデル融合（スタッキング）体験

VB.NET バブルソートアルゴリズムの詳細な説明