時間ステップを100倍短縮すると、従来のニューラルネットワークと同等の精度を実現：上海交通大学などがANN-SNN変換フレームワークSpikeConverterを提案

第 3 世代のニューラルネットワークとして知られるスパイキングニューラルネットワーク (SNN) は、時空間領域における豊富なニューラルダイナミクス、多様なエンコードメカニズム、イベント駆動型の利点により、学者の注目を集めています。生物学的合理性とタスク要件の間のトレードオフの程度が異なるため、ネットワーク内で使用されるニューロンモデルとエンコード方法が異なり、SNN の多様化につながります。

ベクトル乗算に基づく従来の人工ニューラルネットワーク (ANN) とは異なり、SNN は脳の機能構造をシミュレートし、ニューロンを計算およびストレージユニットとして使用し、隣接するニューロンから送信されたパルス信号を膜電圧に蓄積し、しきい値電位を超えたときにパルスを発することで情報を伝達します。計算はすべて加算で完了するため、必要な計算量と消費電力が大幅に削減されます。さらに、SNN のニューロンの実行および学習メカニズムにより、SNN はいくつかの新興デバイスと自然に組み合わせられます。

論文リンク: https://www.aaai.org/AAAI22Papers/AAAI-364.LiuF.pdf

スパイキングニューラルネットワークの目標は、各ニューロンが非同期的にパルス信号を受信および発信できる非同期回路に基づいて実装することです。しかし、このような大規模な非同期回路はまだ実現可能ではなく、スパイキングニューラルネットワーク内のすべてのパルス信号をクロック信号に合わせる必要があります。そうすると、2 つの問題が発生します。1 つ目は、パルス放出の時間を正確に表現するために、1 つの推論を多数の時間ステップに分割する必要があり、パルスシーケンスが非常に長くなることです。2 つ目は、パルスシーケンス内のパルスの数は変化しないため、パルスシーケンス内のパルスが不規則でまばらになります。 Loihi などの既存の同期スパイキングニューラルネットワークチップは、ある程度スパース性を活用します。ただし、時間ステップの増加により推論時間が長くなるという問題は依然として存在します。

スパイキングニューラルネットワークをトレーニングする方法には、直接トレーニングと従来のニューラルネットワークを介した変換の 2 つがあります。直接トレーニングされた SNN: さらに、教師ありトレーニングと教師なしトレーニングに分けられます。 SNN の教師ありトレーニングは、パルスバックプロパゲーションアルゴリズムに基づいています。ただし、ニューロン関数は微分可能ではないため、従来のバックプロパゲーションアルゴリズムを SNN に直接適用することはできません。 SNN の教師なしトレーニングは、シナプス可塑性のルールを活用する生体模倣学習アルゴリズムです。

たとえば、スパイクタイミング依存可塑性 (STDP) は、ニューロンの発火順序に応じてニューロン間の接続の強度を調整する最も代表的な教師なし SNN です。変換ベースのSNN：開発されたディープラーニングの成果に基づいて、パルスニューラルネットワークの低エネルギー消費特性をさらに活用するために、ANNの観点から、連続活性化関数の値をSNNの周波数エンコーディングでの平均パルス発火率に置き換え、ANNのReLU関数をニューロン関数に置き換え、特定の手段でSNNに変換します。

本質的には、変換ベースの SNN のトレーニングは依然として ANN のバックプロパゲーションアルゴリズムに依存しているため、SNN を直接トレーニングする際の難しさは回避されます。パフォーマンスの面では、変換ベースの SNN は ANN の開発と歩調を合わせています。

しかし、既存の SNN は、勾配消失、トレーニングリソースのオーバーヘッドの高さ、さらには超大規模ネットワーク構造を実現する際のアルゴリズムの収束などの問題に依然として直面しています。これらは通常、浅い SNN にしか適用できず、その精度は依然として ANN よりやや劣っています。しかし、既存の変換方法を、より深いネットワークやより複雑なデータセットに適用すると、パルスシーケンスを表現するために多数の時間ステップが必要になります（たとえば、ImageNetでは、VGGから変換されたSNNに必要な時間ステップの数は2048にもなります[3,4]）。

1 回のフォワードパスのみを必要とする ANN 推論と比較して、SNN は各タイムステップでフォワードパスを実行する必要があります。したがって、時間ステップが多すぎると推論の遅延が非常に大きくなり、変換された SNN ネットワークはリアルタイムのパフォーマンスを必要とするアプリケーションを処理できなくなります。

方法の紹介

この論文では、従来のニューラルネットワークの最新の開発に適用できるだけでなく、時間ステップ数を大幅に削減できる、効率的で正確な ANN-SNN 変換フレームワークを提案します。従来のニューラルネットワークとほぼ同じ精度を達成するには、わずか 8 ～ 16 のタイムステップしかかからず、時間遅延が 100 分の 1 に短縮されます。

変換における一貫性関係

まず、ニューロンがパルスを発した後にソフトリセット戦略を採用し、現在の膜電位から閾値電位を減算して、閾値を超えた部分を保持しました。これまでの記事のほとんどでは、膜電圧が閾値を超えたときにパルスを発し、膜電圧を直接 0 にリセットするハードリセット戦略が採用されていました。これを行う利点は、膜電圧に含まれる情報を可能な限り多く保持し、入力の小さな変動の下で比較的一貫した出力結果を維持できることです。ソフトリセット法は次のように表現できる。

ここで、V[t]は時刻tにおける膜電圧、kは各時間ステップ間の膜電圧減衰係数です。 Xi は i 番目の隣接ニューロンのパルス列であり、0 は時刻 t にパルス送信がないことを意味します。 Y は現在のニューロンの出力スパイク列です。式(1)をt=1からTまで足し合わせると、

理想的には、最後にニューロンに膜電圧は残っていません、つまり V[T] = 0 です。このとき、式（２）は次のように簡略化される。

式（3）が従来のニューラルネットワークのMAC計算モードと非常に似ていることは容易に分かる。実際、ANN変換に基づく最も一般的に使用されるSNNは、ANNの活性化値をSNN内のニューロン発火パルスの周波数として使用しており、これはk=1の場合の式（3）の特殊なケースである。

しかし、式（３）は多くの場合成り立たない。最も明白なケースは、膜電圧が最終的に必ずしも 0 または比較的小さい数値に等しくなるとは限らないということです。実際、ニューロン間の重みは負の値を持つため、膜電圧は負の数になることがよくあります。 SNNのニューロンモデルのメカニズムにより、正の電圧にのみ反応し、蓄積された負の膜電位は保持されるため、式（3）は等しくなく、情報を正確に表現できず、パルスニューラルネットワークの精度は従来のニューラルネットワークよりも低くなります。

たとえば、k = 1 で閾値電位 = 1 の場合、入力総膜電位がそれぞれ 1、1、-1、-1 であれば、最初の 2 つの時間ステップでパルス信号が生成されますが、最後の 2 つの -1 は膜電位に蓄積され、消費されません。このとき、式の左辺 = 0、右辺 = 2 となるため、式は成立しません。

ニューロン計算における時間的分離

この問題に対処するために、本論文では時間領域分離法を使用して、膜電圧の蓄積プロセスと膜電圧放出パルスのプロセスを時間領域で分離し、膜電圧蓄積情報の損失を回避します。時間領域分離の効果、つまり発火パルスが蓄積電圧に追従するためには、追加入力がない場合、後の時点での膜電圧が前の膜電圧よりも大きくなければなりません。これは、以前の漏れのある積分発火モデルでは不可能です。この記事では、従来の LIF とは逆のモデルである iLIF を提案しています。このモデルでは、各タイムステップ後にアナログ電圧が減少するのではなく増加します。つまり、式内のアナログ電圧減衰係数 k は 1 より大きい数値になり、電圧増幅係数と呼ばれます。

しかし、時間領域分離方式ではニューロン計算を完了するのにかかる時間が 2 倍になります。この記事では、パイプライン方式を使用して、前の層のパルス出力段階で入力信号として次の層に直接信号を伝送します。時間領域の分離によって生じる余分な実行時間を排除すると同時に、一時的に保存する必要があるコンテンツも削減されます。

上図は画像推論の実行図を示しています。コアとなるのは、レイヤー間並列処理を使用して、異なるイメージの 2 つの実行ステージのオーバーラップを実現し、推論の待ち時間を短縮することです。

パラメータ選択において、主なものは電圧増幅係数の選択です。この記事では、さまざまな時間ステップ数と増幅率における平均変換誤差について検討します。実験では、異なる時間ステップの選択において k=2 が最適な選択であることが示されています。

上の図は、さまざまなパラメータ選択による変換誤差の変化を示しています。 K = 2 の場合、各時間ステップでの変換誤差は最小限に抑えられ、膜電圧の累積によって表される情報は最も正確になります。

実験結果

この記事では、実験に CIFAR-10/100 および ImageNet データセットを使用します。実験結果によると、この記事で提案された方法は、わずか 16 の時間ステップで従来のニューラルネットワークとほぼ同じ精度を達成できます。スペース、ストレージ、コンピューティングコストを大幅に節約しながら、最高のパフォーマンスが達成されました。具体的な実験結果については論文を参照してください。結果の一部は以下のとおりです。