人間の知覚は客観的な刺激だけでなく過去の経験によっても形成され、それらが組み合わさって脳内で複雑な活動を引き起こします。認知神経科学の分野では、脳活動から視覚情報を解読することが重要な課題となっています。機能的磁気共鳴画像法(fMRI)は、効率的で非侵襲的な技術として、画像カテゴリなどの視覚情報を回復および分析する上で重要な役割を果たします。 しかし、このタスクは、fMRI 信号のノイズの性質と脳の視覚表現の複雑さのために、かなりの課題に直面しています。この問題に対処するため、本論文では、脳活動のノイズを識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置き、脳活動から高解像度で意味的に正確な画像を再構成することを目的とした 2 段階の fMRI 表現学習フレームワークを提案します。 論文リンク: https://arxiv.org/abs/2305.17214 プロジェクトリンク: https://github.com/soinx0629/vis_dec_neurips/ 論文で提案された方法は、二重コントラスト学習、クロスモーダル情報交差、拡散モデルに基づいています。関連する fMRI データセットにおける以前の最良モデルと比較して、評価指標が 40% 近く向上しました。生成された画像の品質、可読性、意味的関連性は、既存の方法と比較して著しく向上しました。この研究は、人間の脳の視覚知覚メカニズムを理解するのに役立ち、視覚脳コンピューターインターフェース技術の研究を促進するのに役立ちます。関連するコードはオープンソース化されています。 機能的磁気共鳴画像法(fMRI)は神経反応の分析に広く使用されていますが、そのデータから視覚画像を正確に再構築することは依然として困難です。主な理由は、fMRI データには複数のソースからのノイズが含まれており、神経活性化パターンが隠され、解読が困難になる可能性があるためです。さらに、視覚刺激によって引き起こされる神経反応プロセスは複雑で多段階であるため、fMRI 信号は複雑な非線形重ね合わせとなり、逆転や解読が困難になります。 リッジ回帰などの従来の神経デコード方法は、fMRI 信号を対応する刺激に関連付けるために使用されますが、刺激と神経反応の間の非線形関係を効果的に捉えられないことがよくあります。最近では、生成的敵対ネットワーク (GAN) や潜在的拡散モデル (LDM) などの深層学習技術が採用され、この複雑な関係をより正確にモデル化しています。しかし、視覚に関連する脳活動をノイズから分離し、正確に解読することは、この分野における主要な課題の 1 つとして残っています。 これらの課題に対処するために、本研究では、脳活動のノイズを効果的に識別して除去し、視覚再構成に重要な神経活性化パターンの解析に重点を置くことができる 2 段階の fMRI 表現学習フレームワークを提案します。この方法は、50 のカテゴリで高解像度かつ意味的に正確な画像を生成する際に、最先端の方法よりも 39.34% 高いトップ 1 精度を達成します。 方法の概要fMRI表現学習(FRL) ステージ 1: 事前トレーニング デュアル コントラスト マスク オートエンコーダ (DC-MAE) 本論文では、異なる集団における共通の脳活動パターンと個々のノイズを区別するために、ラベルなしデータを使用して fMRI 表現を事前トレーニングする DC-MAE 技術を紹介します。 DC-MAE はエンコーダーとデコーダーで構成され、マスクされた fMRI 信号を入力として受け取り、マスクされていない fMRI 信号を予測するようにトレーニングされます。いわゆる「二重コントラスト」とは、モデルが fMRI 表現学習におけるコントラスト損失を最適化し、2 つの異なるコントラスト プロセスに参加することを意味します。 対照学習の最初の段階では、n 個の fMRI サンプル v を含むバッチ内の各サンプルがランダムに 2 回マスクされ、2 つの異なるマスク バージョンと対照用の正のサンプル ペアが生成されます。その後、1D 畳み込み層がこれら 2 つのバージョンを埋め込み表現に変換し、fMRI エンコーダーに個別に入力されます。デコーダーはこれらのエンコードされた潜在表現を受け取り、予測を生成します。モデルは、InfoNCE 損失関数によって計算された最初のコントラスト損失、つまりクロス コントラスト損失を使用して最適化されます。 対照学習の第 2 段階では、マスクされていない元の画像とそれに対応するマスクされた画像が、自然な正のサンプルのペアを形成します。ここではデコーダーによって予測された画像を表します。 2 番目のコントラスト損失 (自己コントラスト損失とも呼ばれます) は、次の式に従って計算されます。 自己コントラスト損失を最適化することで、閉塞部分の再構成が可能になります。または のいずれの場合も、負のサンプルは同じインスタンスのバッチから取得されます。および は次のように一緒に最適化されます。ここで、ハイパーパラメータおよび は各損失項の重みを調整するために使用されます。 フェーズ2: クロスモーダルコーチングを使用して適応する fMRI 記録の信号対雑音比が低く、畳み込みが激しい性質を考えると、fMRI 特徴学習者は、視覚処理に最も関連し、再構築に最も有益な脳活性化パターンに焦点を当てることが重要です。 事前トレーニングの第 1 段階の後、fMRI オートエンコーダーは画像支援により調整され、fMRI 再構成が達成され、第 2 段階では同じプロセスが繰り返されました。具体的には、n 個のサンプルのバッチからサンプルとそれに対応する fMRI 記録された神経反応が選択されます。ブロッキングとランダムマスキングの後、およびはそれぞれおよびに変換され、次にそれぞれ画像エンコーダーとfMRIエンコーダーに入力されて、およびが生成されます。 fMRIを再構築するために、クロスアテンションモジュールを使用して統合します。 W と b はそれぞれ対応する線形層の重みとバイアスを表します。はスケーリング係数であり、キーベクトルの次元です。 CA は、cross-attention の略です。追加した後、再構成のためにfMRIデコーダーに入力され、次のようになります。 同様の計算が画像オートエンコーダでも実行されます。画像エンコーダの出力は、クロスアテンションモジュールを介して の出力と結合され、画像のデコードに使用されます。その結果は次のようになります。 fMRI と画像オートエンコーダは、次の損失関数を最適化することによって共同でトレーニングされます。 潜在拡散モデル (LDM) を使用して画像を生成する FRL の第 1 段階と第 2 段階のトレーニングを完了した後、fMRI 特徴学習器のエンコーダーを使用して潜在拡散モデル (LDM) を駆動し、脳活動から画像を生成します。図に示すように、拡散モデルには順方向拡散プロセスと逆方向ノイズ除去プロセスが含まれます。フォワードプロセスでは、変動する分散を持つガウスノイズを徐々に導入することで、画像を徐々に通常のガウスノイズに劣化させます。 この研究では、事前にトレーニングされたラベルから画像への潜在拡散モデル (LDM) から視覚知識を抽出し、fMRI データを条件として使用して画像を生成します。ここでは、安定拡散研究の提案に従って、fMRI 情報を LDM に組み込むためにクロスアテンションメカニズムが採用されています。条件情報の役割を強化するために、ここではクロスアテンションとタイムステップコンディショニング法が採用されています。トレーニングフェーズでは、 FRLの第1ステージと第2ステージでトレーニングされたVQGANエンコーダーとfMRIエンコーダーを使用して画像uとfMRI vを処理し、LDMを変更せずにfMRIエンコーダーを微調整します。損失関数は次のとおりです。 ここで、拡散モデルのノイズ スキームです。推論フェーズでは、プロセスは時間ステップ T の標準ガウスノイズから開始され、LDM は逆のプロセスを順次実行して、与えられた fMRI 情報に基づいて、隠れた表現のノイズを徐々に除去します。時間ステップ 0 に達すると、潜在表現は VQGAN デコーダーを使用して画像に変換されます。 実験再建の結果 DC-LDM、IC-GAN、SS-AEなどの先行研究と比較し、GODおよびBOLD5000データセットで評価したところ、本研究で提案されたモデルは精度の点でこれらのモデルを大幅に上回り、DC-LDMおよびIC-GANと比較してそれぞれ39.34%および66.7%の改善が見られました。 GOD データセットの他の 4 つの被験者に対する評価では、DC-LDM がテスト セットで調整を許可された場合でも、提案モデルは 50 モダリティのトップ 1 分類精度で DC-LDM を大幅に上回り、さまざまな被験者の脳活動を再構築する際の提案モデルの信頼性と優位性が実証されました。 実験結果によると、提案された fMRI 表現学習フレームワークと事前トレーニング済みの LDM を使用すると、脳の視覚活動をより適切に再構築でき、現在のベースラインを大幅に上回ることができます。この研究は、ニューラルデコードモデルの可能性をさらに探求するのに役立ちます。 |
「中国の改革開放40年はIT産業の爆発的な成長をもたらしたが、ハイエンドチップは常に輸入に依存してき...
最近、米国ペンシルベニア州立大学の科学者たちが新しいタイプのナノロボットを開発しました。このロボット...
[[414012]] 「顔認識技術を用いた個人情報処理に関する民事訴訟における法律適用の若干の問題に...
2021年9月に北京で開催された世界ロボットコンテストでは、さまざまな企業がロボット技術の研究開発に...
それほど遠くない過去には、データ サイエンス チームがディープラーニングを効果的に活用するには、いく...
人間の知能は、生物学を模倣することで模倣されるべきでしょうか? それとも、鳥類の生物学が航空宇宙工学...
新たな研究によると、遺伝子間の自然発生的な突然変異は、生まれつきの遺伝子と同じくらい自閉症において重...
インテリジェント時代では、アルゴリズムと計算能力の継続的な進歩により、AI 技術が急速に発展しました...
LLM について議論するときは、必ず「人間のフィードバックによる強化学習 (RLHF)」と呼ばれるプ...
[[205595]]この記事では、エントリーレベルのスタッキング アプリケーションを学習する私の精神...
VB.NET を学習する場合、中国語の情報が非常に少なく、大多数のプログラマーのニーズを満たすのが難...