グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?

畳み込みニューラル ネットワークから注意メカニズムを備えた視覚トランスフォーマーまで、ニューラル ネットワーク モデルは入力画像をグリッドまたはパッチ シーケンスとして扱いますが、このアプローチでは変化するオブジェクトや複雑なオブジェクトをキャプチャすることはできません。

例えば、人間が絵を観察するとき、その絵全体を自然に複数のオブジェクトに分割し、オブジェクト間の空間的などの位置関係を構築します。つまり、人間の脳にとって絵全体はグラフであり、オブジェクトはそのグラフ上のノードであるということです。

最近、中国科学院ソフトウェア研究所、華為ノアの方舟研究所、北京大学、マカオ大学の研究者らが共同で、視覚タスク向けに画像からグラフレベルの特徴を抽出できる新しいモデルアーキテクチャ、Vision GNN (ViG) を提案しました。

論文リンク: https://arxiv.org/pdf/2206.00272.pdf

まず、画像をグラフのノードとしていくつかのパッチに分割し、最も近いパッチを接続してグラフを構築します。次に、ViG モデルを使用して、グラフ全体のすべてのノードの情報を変換および交換します。

ViG は 2 つの基本モジュールで構成されています。Grapher モジュールはグラフ畳み込みを使用してグラフ情報を集約および更新し、FFN モジュールは 2 つの線形レイヤーを使用してノード機能を変換します。

画像認識や物体検出タスクの実験でも、ViG アーキテクチャの優位性が実証されています。一般的な視覚タスクにおける GNN の先駆的な研究は、将来の研究に役立つインスピレーションと経験をもたらすでしょう。

論文の著者は、中国科学院ソフトウェア研究所の博士課程の指導者であり、マカオ大学の名誉教授である呉恩華教授です。呉教授は、1970 年に清華大学の工学機械数学部を卒業し、1980 年に英国マンチェスター大学のコンピュータサイエンス学部で博士号を取得しました。主な研究分野はコンピュータグラフィックスと仮想現実で、仮想現実、リアルなグラフィックス生成、物理ベースのシミュレーションとリアルタイムコンピューティング、物理ベースのモデリングとレンダリング、画像とビデオの処理とモデリング、ビジュアルコンピューティング、機械学習などが含まれます。

ビジュアルGNN

ネットワーク構造は、パフォーマンスを向上させる上で最も重要な要素となることが多く、データの量と質が保証されていれば、モデルを CNN から ViT に変更することで、よりパフォーマンスの高いモデルを得ることができます。

しかし、ネットワークが異なれば入力画像の扱いも異なります。CNN は画像上でウィンドウをスライドさせ、変換不変性とローカル機能を導入します。

ViT と多層パーセプトロン (MLP) は、画像をパッチ シーケンスに変換します。たとえば、224×224 の画像を複数の 16×16 パッチに分割し、最終的に長さ 196 の入力シーケンスを形成します。

グラフ ニューラル ネットワークはより柔軟です。たとえば、コンピューター ビジョンでは、画像内のオブジェクトを認識することが基本的なタスクです。オブジェクトは通常は四辺形ではなく不規則な形状である可能性があるため、ResNet や ViT などの以前のネットワークで一般的に使用されていたグリッドまたはシーケンス構造は冗長であり、処理が柔軟ではありません。

物体は複数の部分から構成されていると見なすことができます。たとえば、人間は大まかに頭、上半身、腕、脚に分けることができます。

これらのパーツは関節でつながっており、自然にグラフィック構造を形成しています。このグラフを解析することで、最終的にこの物体が人間である可能性があると認識できます。

さらに、グラフは一般的なデータ構造であり、グリッドとシーケンスはグラフの特殊なケースとして見ることができます。画像をグラフとして表示すると、視覚的に柔軟かつ効果的になります。

グラフ構造を使用するには、入力画像を複数のパッチに分割し、各パッチをノードとして扱う必要があります。各ピクセルをノードとして扱うと、グラフ内のノードの数が多すぎます (>10K)。

グラフが確立された後、まずグラフ畳み込みニューラル ネットワーク (GCN) を使用して、隣接するノード間の特徴を集約し、画像の表現を抽出します。

GCN がより多様な特徴を取得できるようにするために、著者はグラフ畳み込みにマルチヘッド操作を適用します。集約された特徴は、異なる重みを持つヘッドによって更新され、最終的に画像表現にカスケードされます。

従来の GCN では通常、複数のグラフ畳み込み層を再利用してグラフ データの集約的な特徴を抽出していましたが、ディープ GCN の過剰平滑化現象によりノード特徴の一意性が低下し、視覚認識のパフォーマンスが低下していました。

この問題を緩和するために、研究者は ViG ブロックにさらに多くの特徴変換と非線形活性化関数を導入しました。

まず、グラフ畳み込みの前後に線形レイヤーを適用して、ノード機能を同じドメインに投影し、機能の多様性を高めます。層の崩壊を避けるために、グラフ畳み込みの後に非線形活性化関数が挿入されます。

特徴変換能力をさらに向上させ、過剰平滑化現象を軽減するためには、各ノードでフィードフォワードネットワーク (FFN) を使用することも必要です。 FFN モジュールは、2 つの完全に接続された層を持つ単純な多層パーセプトロンです。

Grapher モジュールと FFN モジュールでは、各完全接続層またはグラフ畳み込み層の後にバッチ正規化が実行されます。Grapher モジュールと FFN モジュールの積み重ねによって ViG ブロックが構成され、これは大規模ネットワークを構築するための基本単位でもあります。

オリジナルの ResGCN と比較して、新しく提案された ViG は特徴の多様性を維持でき、レイヤーが追加されるにつれてネットワークはより強力な表現を学習することもできます。

コンピュータビジョンのネットワークアーキテクチャでは、一般的に使用されるTransformerモデルは通常、等方性構造(ViTなど)を持ちますが、CNNはピラミッド構造(ResNetなど)を使用する傾向があります。

他のタイプのニューラル ネットワークと比較するために、研究者は ViG 用に等方性ネットワーク アーキテクチャとピラミッド型ネットワーク アーキテクチャの両方を構築しました。

実験比較段階では、研究者らは画像分類タスク用に、1,000 のカテゴリ、1 億 2,000 万枚のトレーニング画像、および 5 万枚の検証画像を含む ImageNet ILSVRC 2012 データセットを選択しました。

ターゲット検出タスクでは、118,000 枚のトレーニング画像と 5000 枚の検証セット画像を含む、80 個のターゲット カテゴリを持つ COCO 2017 データセットが選択されました。

等方性 ViG アーキテクチャでは、主な計算プロセス中にフィーチャ サイズを変更せずに維持できるため、拡張が容易で、ハードウェア アクセラレーションに適しています。既存の等方性 CNN、Transformer、MLP と比較すると、ViG は他のタイプのネットワークよりも優れたパフォーマンスを発揮することがわかります。その中で、ViG-Ti は 73.9% のトップ 1 精度を達成しました。これは、計算コストが同程度であるにもかかわらず、DeiT-Ti モデルよりも 1.7% 高い値です。

ピラミッド構造の ViG では、ネットワークが深くなるにつれて特徴マップの空間サイズが徐々に縮小され、画像のスケール不変特性を利用して同時にマルチスケール特徴が生成されます。

ほとんどの高性能ネットワークは、ResNet、Swin Transformer、CycleMLP などのピラミッド構造を使用します。 Pyramid ViG をこれらの代表的なピラミッド ネットワークと比較すると、Pyramid ViG ファミリーは CNN、MLP、Transformer などの最先端のピラミッド ネットワークを上回るか、それに匹敵することがわかります。

結果は、グラフ ニューラル ネットワークが視覚タスクをうまく実行でき、コンピューター ビジョン システムの基本的な構成要素になる可能性があることを示しています。

ViG モデルのワークフローをよりよく理解するために、研究者は ViG-S で構築されたグラフ構造を視覚化しました。 2 つの異なる深さ (ブロック 1 と 12) のサンプルの図 1。五芒星は中心ノードであり、同じ色のノードはその隣接ノードです。すべてのエッジを描画すると煩雑になるため、中央の 2 つのノードのみを視覚化します。

ViG モデルはコンテンツ関連のノードを一次近傍として選択できることがわかります。浅いレベルでは、色やテクスチャなどの低レベルおよびローカルな特徴に基づいて隣接ノードが選択されることが多いです。深いレイヤーでは、中心ノードの隣接ノードはより意味的であり、同じカテゴリに属します。 ViG ネットワークは、コンテンツと意味表現を通じてノードを徐々に接続し、オブジェクトをより適切に認識するのに役立ちます。​

<<:  7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

>>:  AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

ブログ    
ブログ    

推薦する

ChatGPT のパフォーマンスが最大 214% 向上し、7 つのグラフが更新されました。 IDEA、HKUST GuazhouなどがToG思考マップを提案

大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?金融、法律、医...

...

音声合成のためのディープフィードフォワードシーケンシャルメモリネットワーク

まとめディープフィードフォワードシーケンスメモリネットワークに基づく音声合成システムを提案します。こ...

AIが初めて量子レベルで物質を記述!自然:化学分野で最も価値のある技術の一つ

[[440047]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ダブル12の「ショッピングシーズン」、これらの家庭用ロボットはあなたが「ひっくり返す」のを待っています

11 月 11 日が過ぎ、12 月 12 日の「ショッピング シーズン」が再び到来しました。 202...

...

予想外?今年の建国記念日に最も多く目にするのはドローンかもしれません!

[[426834]]国慶節のゴールデンウィークが近づいてきました。旅行の計画はお決まりですか?昨今...

...

日常の問題を自動的に解決する 5 つの AI API

今日の AI テクノロジーを使用して手作業を自動化しましょう。文書の校正、アートの作成、Google...

...

NVIDIA は、わずか 5 行のコードで画像を 3D モデルに変換する 3D ディープラーニング ツール Kaolin をリリースしました。

近年、3D コンピューター ビジョンと人工知能はともに急速に進歩していますが、両者の効果的な組み合わ...

機械学習パイプラインについて知っておくべきことは何ですか?

【51CTO.com クイック翻訳】継続的インテグレーション (CI)/継続的デリバリー (CD)...

OpenAI、テキストから動画を生成できる新しい大規模モデル「Sora」を発表

海外メディアの報道によると、OpenAIは2月18日、短いテキストプロンプトを通じて「リアル」かつ「...

エッジ AI がインダストリー 4.0 の成果を推進する方法

物理的な世界を中心としたこれまでの産業革命とは異なり、第 4 次産業革命によって導入されたデジタル要...

国防総省は「数日前」に出来事を予測できる人工知能をテストしている

クラウド コンピューティングもこの設定で重要な役割を果たし、世界中から収集された膨大な量のデータを効...