コンピューティング要件が 1% 削減されました。清華大学が初めて「二値化スペクトル再構成アルゴリズム」を提案、コードは完全オープンソース｜NeurIPS 2023

従来の 3 チャンネル RGB 画像と比較すると、ハイパースペクトル画像には数十または数百のバンドが含まれるため、撮影シーンに関するより豊富な情報を取得できます。この重要な特性のため、ハイパースペクトル画像は医療、地形探査、農業などの分野で広く使用されています。

図1に示すように、病院で検査を受ける際、従来のRGB画像のみでは病気の原因を診断することが難しい場合があります。しかし、ハイパースペクトル画像を特定の波長で撮影してレンダリングすると、さまざまな血管や骨の構造などが鮮明に見え、医師の診断に役立ちます。同じ原理は、リモートセンシングによる地形探査や農業害虫や病気の検出にも適用できます。

図1 ハイパースペクトル画像の応用

しかし、ハイパースペクトル画像を取得するのは簡単ではありません。従来の画像撮影機器では、分光計を使用して画像撮影シーンをバンドごとにスキャンしますが、これには時間と労力がかかり、動くシーンを撮影することは困難です。

近年、科学者たちはこの問題を解決するためにスナップショット圧縮イメージング (SCI) システムを特別に設計しました。

その光路構造を図2に示します。このシステムは、まずコード化された開口マスクを通して画像化されたシーンのスペクトルチャネルを変調し、次にプリズムを通してそれらを分散させて、カメラ上で 2 次元のスナップショット推定値 (圧縮測定) をキャプチャします。

この光路システムを通じて、3 次元のスペクトルキューブを 2 次元画像に圧縮できます。スペクトル圧縮再構成のタスクは、この 2 次元圧縮推定画像から 3 次元ハイパースペクトルデータを復元することです。

図2 単一露光圧縮撮像システム

現在主流の方法は、CNN や Transformer などの完全精度モデルを使用して、圧縮された推定画像から 3 次元スペクトルキューブへのマッピングを学習することです。いくつかの古典的なアルゴリズムには、以前の作業である MST、MST++、CST、DAUHST、HDNet などがあります (これらすべてのメソッドは、ツールボックス MST でオープンソース化されています)。

このような方法は優れた再構築結果を達成していますが、モバイルデバイス（スマートフォン、カメラ、ドローンなど）ではメモリ容量、コンピューティングリソース、電力が限られており、フル精度のモデルを実行できないため、モバイルデバイスに展開するのは困難です。

一方、深度拡張演算子やマルチヘッド自己注意メカニズムなど、フル精度モデルの一部の計算ユニットは比較的複雑であり、モバイルデバイスではサポートできません。

スペクトル再構築アルゴリズムの実用化を促進するために、清華大学および他の機関の研究者が新しい研究を提案しました。その主な貢献は次のとおりです。

写真

論文リンク: https://arxiv.org/abs/2305.10299

コードリンク: https://github.com/caiyuanhao1998/BiSCI

コードリンク: https://github.com/caiyuanhao1998/MST

（１）スペクトル圧縮と再構成の分野における二値化ニューラルネットワーク（BNN）に基づく最初のアルゴリズム、すなわち二値化スペクトル再配分ネットワーク（BiSRNet）が提案された。

図3 BiSRNetと最先端のバイナリネットワークのパフォーマンス比較

（２）新しい二値化畳み込みユニット、二値化スペクトル再分配畳み込み（BiSR-Conv）が設計された。畳み込みユニットは、スペクトル表現の強度と分布を調整し、バックプロパゲーションにおけるバイナリ符号関数をより適切に近似できるため、得られる勾配がより正確になります。

（３）特徴グラフ変換プロセス中の次元不一致問題を解決するために４つのバイナリ畳み込みモジュールが作成され、これにより、バイナリ畳み込みによって引き起こされる情報損失を補うために、モデル全体の各畳み込みユニットにフル精度の情報が流れることができる。

（4）私たちのBiSRNetは、最先端の二値化アルゴリズムを大幅に上回り、フル精度CNNに匹敵する結果を達成しています。しかし、私たちのBiSRNetアルゴリズムは、非常に低いストレージスペース（約0.06％）と計算コスト（約1％）しか必要としません。

現在、すべてのコード、事前トレーニング済みモデル、テスト結果は、8 つの主要なタイプのバイナリネットワークをサポートするバイナリスペクトル圧縮再構築ツールキット BiSCI でオープンソース化されています。どなたでもご利用いただけます。

同時に、以前開発したスペクトル再構成ツールボックス MST にも BiSRNet を組み込みました。現在、MST ツールキットは 12 種類以上のディープラーニングアルゴリズムをサポートしており、さまざまな視覚化機能もサポートしています。ぜひ比較してみてください。

方法の紹介

基本モデル

一般的に、2 値化に使用される完全精度モデルは比較的軽量で、その計算ユニットはモバイルデバイス上で実行できる必要があります。ただし、既存の CNN または Transformer モデルはいずれもこの要件を満たしていません。この目的のために、シンプルで軽量、かつ簡単に導入できるベースモデルを再設計しました。

以前の研究である MST、MST++、CST、および DAUHST に触発されて、私たちが設計した基本モデルも、図 4 に示すように U 字型構造を採用しています。

図4 基本モデルのネットワーク構造

この基本モデルでは、使用されるすべてのコンピューティングユニットはモバイルデバイスでサポートされ、計算の複雑さが増す操作は行われません。

二値化スペクトル再分配畳み込みユニット

二値化スペクトル再分配畳み込みの詳細を図4(c)に示します。入力されるフル精度の活性化信号は Xf として示されます。特定の画像化波長によって制限されるため、ハイパースペクトル信号はスペクトル次元に沿って異なる強度と分布を持つことがわかります。

スペクトル画像のこの特性に適応するために、二値化をアクティブ化する前に、ハイパースペクトル画像表現をチャネルごとに再分配することを提案します。

写真

ここで、Xr は再分配された活性化を表し、k と b は学習可能なパラメータを表し、Xr は符号関数の後に 1 ビットの活性化 Xb に量子化されます。

写真

図5(b)と(c)に示すように、符号関数は微分可能ではないため、これまでのほとんどの方法では、符号関数をバックプロパゲーションに適合させるために区分線形関数Clip(x)または2次関数Quad(x)が使用されています。

写真

図5 記号関数と各種近似関数の比較

Clip(x)とQuad(x)の具体的な表現は以下のとおりです。

写真

ただし、区分線形関数はあくまでも大まかな推定値であり、記号関数との間には依然として大きな誤差が存在します。

図5の網掛け部分はこの誤差の大きさを表しており、Clip(x)の誤差は1です。さらに、アクティベーションや重みの値が[-1, 1]の範囲外になると、それらは更新されなくなります。

区分的二次関数はより正確な近似値（誤差は 2/3）ですが、上記の 2 つの問題は依然として存在します。

この目的のために、バックプロパゲーション中に符号関数に適合するスケーラブルな双曲正接関数を設計します。

写真

ここで、α>0はTanh(αx)とSign(x)の間の距離を適応的に調整する学習可能なパラメータです。

α→+∞のとき、Tanh(αx)→Sign(x)は次のようになることを証明します。

写真

以前の2値化アルゴリズムに従って、次のように定義します。

写真

すると次のようになります:

写真

次に、図5(d)の網掛け部分を計算してみましょう。

写真

αが十分に大きい場合、Tanh(αx)は任意にSign(x)に近づくことができることがわかります。同時に、Tanh(x)は区分関数ではなく、xが[-1, 1]の範囲外にあるため更新できません。

さらに、3つの近似関数の1次導関数を比較します。図5の下段に示すように、∂Clip(x)/∂xと∂Quad(x)∂xの値の範囲は両方とも[0,1]であり、これは∂Sign(x)∂x∈[0,+∞)とは根本的に異なります。

∂Tanh(αx)∂xは、パラメータαを変更することで値の範囲(0, α)と形状を調整することができ、∂Sign(x)∂xをより柔軟に近似することができます。

2値化畳み込み層では、32ビットの重みWfも1ビットの重みWbに2値化されます。

写真

ここでの E は平均を取ることを意味します。その結果、計算集約型の完全精度畳み込み演算は、次のように純粋な論理 XNOR およびビットカウント演算に置き換えることができます。

写真

フル精度情報 Xf の値の範囲はバイナリ畳み込みの出力 Yb とはかなり異なるため、残差接続を直接導入して 2 つを加算すると、Yb の情報が簡単に埋もれてしまう可能性があります。そのため、最初に RPreLU アクティベーション関数を使用して Yb の値の範囲を再形成します。

写真

次に、残余リンクを導入します。

写真

私たちの設計により、フル精度の情報フローはバイナリ畳み込みによってブロックされず、図 4 (c) の赤い矢印で示されているように、設計した BiSR-Conv ユニットをスムーズに通過できるようになります。

写真

図6 特徴マップの次元変化を処理する際の提案されたバイナリ畳み込みブロックと一般的なバイナリ畳み込みブロックの比較

完全精度の情報フローは、量子化によって生じる情報損失をある程度まで補償するため、2 値化アルゴリズムでは非常に重要です。しかし、特徴マップのアップサンプリングとダウンサンプリングの際には、次元の変化により、図 6 の各サブイメージの左半分に示すように、残差リンクを直接導入して完全精度情報を補足することは困難です。

青い矢印はバイナリ信号を表し、赤い矢印はフル精度の情報フローを表します。通常のバイナリ畳み込みモジュールは、特徴次元を変更する際に、完全精度の情報フローの送信をブロックします。ただし、当社のバイナリ畳み込みモジュールは、分割とマージの手法を使用して、完全精度の情報フローがブロックされず、バイナリモデル全体に流れるようにします。

実験結果

定量的指標

表1 BiSRNet、SOTA BNN、従来の手法、および完全精度CNN手法の定量的指標の比較

表 1 は、BiSRNet と SOTA BNN、従来の方法、および完全精度 CNN 方法との定量的指標の比較を示しています。当社の BiSRNet は、現在最も先進的な BNN アルゴリズム BTM を 2.55 dB 大幅に上回っていることがわかります。

また、4.49dB 以上の増加で、従来の 64 ビットアルゴリズムをすべて上回ります。当社の BiSRNet は、フル精度の CNN 方式に匹敵するパフォーマンスを達成しており、たとえば、λ−Net を 1.23 dB 上回りながら、ストレージスペースの 0.06% と計算コストの 1% しか占有しないことは注目に値します。