「非ディープ ネットワーク」12 層が 50 層に勝つ、プリンストン + インテル: 深い方が必ずしも良いわけではない

「非ディープ ネットワーク」12 層が 50 層に勝つ、プリンストン + インテル: 深い方が必ずしも良いわけではない

[[432431]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

「ディープ」はディープニューラルネットワーク(DNN)のキーワードです。しかし、ネットワークが深くなるほど、トレーニング中のバックプロパゲーション チェーンが長くなり、推論中の連続計算ステップが増え、レイテンシが高くなります。

深さが十分でない場合、ニューラル ネットワークのパフォーマンスが低下することがよくあります。

こうなると、次のような疑問が生じます。高性能な「非ディープ」ニューラル ネットワークを構築することは可能なのでしょうか?

プリンストン大学インテルの新しい論文は、それが実際に可能であることを証明しています。

彼らは、12 層ネットワークParNetのみを使用して、ImageNet で SOTA に近いパフォーマンスを達成しました。

ParNet は、ImageNet で 80% 以上の精度、CIFAR10 で 96% 以上の精度、CIFAR100 でトップ 1 の精度 81% を達成しています。また、MS-COCO で 48% の AP を達成しています。

ネットワークが非常に「浅い」場合、どのようにそれを実行するのでしょうか?

並列サブネットはパフォーマンスを向上します

ParNet における重要な設計上の選択は、並列サブネットワークの使用です。レイヤーを順番に配置するのではなく、並列サブネットワークに配置します。

ParNet は、異なる解像度で機能を処理する並列サブ構造で構成されています。これらの並列サブ構造をストリームと呼びます。異なるストリームからの機能はネットワークの後の段階で融合され、これらの融合された機能は下流のタスクに使用されます。

ParNet では、著者は VGG スタイルのブロックを使用します。ただし、非ディープ ネットワークの場合、3×3 畳み込みの受容フィールドは比較的制限されます。

この問題に対処するために、著者らは Squeeze-and-Excitation 設計に基づいて Skip-Squeeze-Excitation (SSE) レイヤーを構築しました。 SSE モジュールを使用して変更された Rep-VGG は、Rep VGG-SSE と呼ばれます。

ImageNet などの大規模なデータセットの場合、非深層ネットワークでは非線形性が十分でない場合があり、その表現機能が制限される可能性があります。そのため、著者らはReLUをSiLU活性化関数に置き換えました。

同じサイズの RepVGG-SSE ブロックの入力と出力に加えて、ParNet にはダウンサンプリング ブロックと融合ブロックも含まれています。

モジュールは解像度を下げて幅を広げ、マルチスケール処理を可能にします。一方、融合ブロックは複数の解像度からの情報を組み合わせ、推論中のレイテンシを削減するのに役立ちます。

浅い深度で高いパフォーマンスを実現するために、著者らは幅、解像度、ストリーム数を増やすことで ParNet を拡張しました。

著者らは、ムーアの法則が減速するにつれてプロセッサ周波数の増加の余地が限られるため、並列コンピューティングはニューラルネットワークがより高速な推論を実現するのに役立つだろうと述べている。並列構造の非深層ネットワーク ParNet には、この点で利点があります。

実際のパフォーマンスはどうですか?

ImageNet データセットでは、ParNet は Top-1 と Top-5 の両方で SOTA のパフォーマンスに近い値を示します。

MS-COCO タスクでは、ParNet は最小のレイテンシで最高のパフォーマンスを実現します。

しかし、層数が少ないにもかかわらずネットワーク幅が広くなるため、「非深層ネットワーク」の実際のパフォーマンスに疑問を抱く人もいます。実際、ParNetはより深いResNet50よりもパラメータが多く、あまり説得力がないようです。

しかし、著者は、「非ディープ」ネットワークは複数の GPU によるより高度な並列コンピューティングを活用できるとも述べています。

最後に、ParNet GitHub ページがセットアップされ、コードはまもなくオープンソース化される予定です。

<<:  この履歴書は人気があります:14nmコーヒーを手で挽き、マイクロソフトで性感染症を広め、90%の企業が和解の手を差し伸べる

>>:  メタバースと自動運転車のどちらが先に来るでしょうか?

ブログ    

推薦する

...

まだ分​​からない?約20以上の自動運転データセット、ランキング、ベンチマークのコレクション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。

特定のタスクを実行するためにニューラル ネットワークを調整したいですか?この問題は想像したほど単純で...

将来、人工知能ロボットに置き換えられる可能性のある10の仕事

専門家は、将来的には職業の約 70% が自動化されると予測しています。運転手、教師、ベビーシッター、...

...

第一線のSASEがエッジAIを護衛

データの共有と流通が厳格な要求になると、もともと孤立していたビジネス ネットワークは境界を打ち破り、...

AIと5Gが次のイノベーションの波をどう推進するか

[[427625]]今後10年間で、人工知能はあらゆる産業を変えると予想されており、その変化のきっか...

...

国内初の大規模模造品対策訴訟:アリババクラウドが偽造同義千聞アプリを提訴、一審で勝訴

1月16日、中国における大型モデルの偽造品撲滅活動で初の成功事例が発表された。アリババクラウドとアリ...

人工知能に対する2つのアプローチの戦い

[[248047]] (AIの2つのルート)ホフスタッターは1995年に予測した。 (人工知能におい...

PyTorchに負けました! GoogleはTensorFlowを放棄し、JAXに賭ける

私はネットユーザーの一部が言ったことにとても満足しています。 「この子は本当にダメだ、もう一匹産もう...

180の大学が「人工知能」の専攻を追加し、人工知能は大人気です!

最近、教育部は「2019年度一般高等教育機関の学部専攻登録・認可結果発表通知」を出し、設置が認可され...

ワンクリックでコード化からコード化なしに変更できますか? AIブラックテクノロジーは本当にモザイクを除去できるのか?

モザイクは人々に嫌われており、「モザイクは人類の文明の進歩を妨げる」という諺が生まれたほどです。映画...

AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します

近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、...