グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?

畳み込みニューラル ネットワークから注意メカニズムを備えた視覚トランスフォーマーまで、ニューラル ネットワーク モデルは入力画像をグリッドまたはパッチ シーケンスとして扱いますが、このアプローチでは変化するオブジェクトや複雑なオブジェクトをキャプチャすることはできません。

例えば、人間が絵を観察するとき、その絵全体を自然に複数のオブジェクトに分割し、オブジェクト間の空間的などの位置関係を構築します。つまり、人間の脳にとって絵全体はグラフであり、オブジェクトはそのグラフ上のノードであるということです。

最近、中国科学院ソフトウェア研究所、華為ノアの方舟研究所、北京大学、マカオ大学の研究者らが共同で、視覚タスク向けに画像からグラフレベルの特徴を抽出できる新しいモデルアーキテクチャ、Vision GNN (ViG) を提案しました。

論文リンク: https://arxiv.org/pdf/2206.00272.pdf

まず、画像をグラフのノードとしていくつかのパッチに分割し、最も近いパッチを接続してグラフを構築します。次に、ViG モデルを使用して、グラフ全体のすべてのノードの情報を変換および交換します。

ViG は 2 つの基本モジュールで構成されています。Grapher モジュールはグラフ畳み込みを使用してグラフ情報を集約および更新し、FFN モジュールは 2 つの線形レイヤーを使用してノード機能を変換します。

画像認識や物体検出タスクの実験でも、ViG アーキテクチャの優位性が実証されています。一般的な視覚タスクにおける GNN の先駆的な研究は、将来の研究に役立つインスピレーションと経験をもたらすでしょう。

論文の著者は、中国科学院ソフトウェア研究所の博士課程の指導者であり、マカオ大学の名誉教授である呉恩華教授です。呉教授は、1970 年に清華大学の工学機械数学部を卒業し、1980 年に英国マンチェスター大学のコンピュータサイエンス学部で博士号を取得しました。主な研究分野はコンピュータグラフィックスと仮想現実で、仮想現実、リアルなグラフィックス生成、物理ベースのシミュレーションとリアルタイムコンピューティング、物理ベースのモデリングとレンダリング、画像とビデオの処理とモデリング、ビジュアルコンピューティング、機械学習などが含まれます。

ビジュアルGNN

ネットワーク構造は、パフォーマンスを向上させる上で最も重要な要素となることが多く、データの量と質が保証されていれば、モデルを CNN から ViT に変更することで、よりパフォーマンスの高いモデルを得ることができます。

しかし、ネットワークが異なれば入力画像の扱いも異なります。CNN は画像上でウィンドウをスライドさせ、変換不変性とローカル機能を導入します。

ViT と多層パーセプトロン (MLP) は、画像をパッチ シーケンスに変換します。たとえば、224×224 の画像を複数の 16×16 パッチに分割し、最終的に長さ 196 の入力シーケンスを形成します。

グラフ ニューラル ネットワークはより柔軟です。たとえば、コンピューター ビジョンでは、画像内のオブジェクトを認識することが基本的なタスクです。オブジェクトは通常は四辺形ではなく不規則な形状である可能性があるため、ResNet や ViT などの以前のネットワークで一般的に使用されていたグリッドまたはシーケンス構造は冗長であり、処理が柔軟ではありません。

物体は複数の部分から構成されていると見なすことができます。たとえば、人間は大まかに頭、上半身、腕、脚に分けることができます。

これらのパーツは関節でつながっており、自然にグラフィック構造を形成しています。このグラフを解析することで、最終的にこの物体が人間である可能性があると認識できます。

さらに、グラフは一般的なデータ構造であり、グリッドとシーケンスはグラフの特殊なケースとして見ることができます。画像をグラフとして表示すると、視覚的に柔軟かつ効果的になります。

グラフ構造を使用するには、入力画像を複数のパッチに分割し、各パッチをノードとして扱う必要があります。各ピクセルをノードとして扱うと、グラフ内のノードの数が多すぎます (>10K)。

グラフが確立された後、まずグラフ畳み込みニューラル ネットワーク (GCN) を使用して、隣接するノード間の特徴を集約し、画像の表現を抽出します。

GCN がより多様な特徴を取得できるようにするために、著者はグラフ畳み込みにマルチヘッド操作を適用します。集約された特徴は、異なる重みを持つヘッドによって更新され、最終的に画像表現にカスケードされます。

従来の GCN では通常、複数のグラフ畳み込み層を再利用してグラフ データの集約的な特徴を抽出していましたが、ディープ GCN の過剰平滑化現象によりノード特徴の一意性が低下し、視覚認識のパフォーマンスが低下していました。

この問題を緩和するために、研究者は ViG ブロックにさらに多くの特徴変換と非線形活性化関数を導入しました。

まず、グラフ畳み込みの前後に線形レイヤーを適用して、ノード機能を同じドメインに投影し、機能の多様性を高めます。層の崩壊を避けるために、グラフ畳み込みの後に非線形活性化関数が挿入されます。

特徴変換能力をさらに向上させ、過剰平滑化現象を軽減するためには、各ノードでフィードフォワードネットワーク (FFN) を使用することも必要です。 FFN モジュールは、2 つの完全に接続された層を持つ単純な多層パーセプトロンです。

Grapher モジュールと FFN モジュールでは、各完全接続層またはグラフ畳み込み層の後にバッチ正規化が実行されます。Grapher モジュールと FFN モジュールの積み重ねによって ViG ブロックが構成され、これは大規模ネットワークを構築するための基本単位でもあります。

オリジナルの ResGCN と比較して、新しく提案された ViG は特徴の多様性を維持でき、レイヤーが追加されるにつれてネットワークはより強力な表現を学習することもできます。

コンピュータビジョンのネットワークアーキテクチャでは、一般的に使用されるTransformerモデルは通常、等方性構造(ViTなど)を持ちますが、CNNはピラミッド構造(ResNetなど)を使用する傾向があります。

他のタイプのニューラル ネットワークと比較するために、研究者は ViG 用に等方性ネットワーク アーキテクチャとピラミッド型ネットワーク アーキテクチャの両方を構築しました。

実験比較段階では、研究者らは画像分類タスク用に、1,000 のカテゴリ、1 億 2,000 万枚のトレーニング画像、および 5 万枚の検証画像を含む ImageNet ILSVRC 2012 データセットを選択しました。

ターゲット検出タスクでは、118,000 枚のトレーニング画像と 5000 枚の検証セット画像を含む、80 個のターゲット カテゴリを持つ COCO 2017 データセットが選択されました。

等方性 ViG アーキテクチャでは、主な計算プロセス中にフィーチャ サイズを変更せずに維持できるため、拡張が容易で、ハードウェア アクセラレーションに適しています。既存の等方性 CNN、Transformer、MLP と比較すると、ViG は他のタイプのネットワークよりも優れたパフォーマンスを発揮することがわかります。その中で、ViG-Ti は 73.9% のトップ 1 精度を達成しました。これは、計算コストが同程度であるにもかかわらず、DeiT-Ti モデルよりも 1.7% 高い値です。

ピラミッド構造の ViG では、ネットワークが深くなるにつれて特徴マップの空間サイズが徐々に縮小され、画像のスケール不変特性を利用して同時にマルチスケール特徴が生成されます。

ほとんどの高性能ネットワークは、ResNet、Swin Transformer、CycleMLP などのピラミッド構造を使用します。 Pyramid ViG をこれらの代表的なピラミッド ネットワークと比較すると、Pyramid ViG ファミリーは CNN、MLP、Transformer などの最先端のピラミッド ネットワークを上回るか、それに匹敵することがわかります。

結果は、グラフ ニューラル ネットワークが視覚タスクをうまく実行でき、コンピューター ビジョン システムの基本的な構成要素になる可能性があることを示しています。

ViG モデルのワークフローをよりよく理解するために、研究者は ViG-S で構築されたグラフ構造を視覚化しました。 2 つの異なる深さ (ブロック 1 と 12) のサンプルの図 1。五芒星は中心ノードであり、同じ色のノードはその隣接ノードです。すべてのエッジを描画すると煩雑になるため、中央の 2 つのノードのみを視覚化します。

ViG モデルはコンテンツ関連のノードを一次近傍として選択できることがわかります。浅いレベルでは、色やテクスチャなどの低レベルおよびローカルな特徴に基づいて隣接ノードが選択されることが多いです。深いレイヤーでは、中心ノードの隣接ノードはより意味的であり、同じカテゴリに属します。 ViG ネットワークは、コンテンツと意味表現を通じてノードを徐々に接続し、オブジェクトをより適切に認識するのに役立ちます。​

<<:  7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

>>:  AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

MetaGPT AIモデルオープンソース:ソフトウェア会社の開発プロセスをシミュレートし、高品質のコードを生成できます

7月4日、コード生成に重点を置いたAIモデルとしてMetaGPTが発表された。名前は似ているが、Me...

人工知能の発展と未来

人工知能(AI)技術の継続的な発展により、さまざまなAI製品が徐々に私たちの生活に入り込んできました...

世界経済フォーラムの報告: 5年以内に8,500万の仕事が機械に置き換えられる可能性がある

世界経済フォーラム(WEF)のウェブサイトが21日に報じたところによると、同組織はこのほど「仕事の未...

...

ニューラルネットワーク関係抽出のための構文的に敏感なエンティティ表現

ニューラル関係抽出のための構文的に敏感なエンティティ表現。関係抽出タスクの大規模な適用における大きな...

効率的なトランスフォーマーが次々と登場、Googleチームが1つの記事ですべてをレビュー

Transformerモデルは2017年の誕生以来、自然言語処理やコンピュータービジョンなど多くの分...

ITリーダーはAIパワーの変化する需要とトレードオフを乗り切る

2023 年は世界中の IT 部門に多くの変化をもたらしました。これまでのところ、最大の驚きは Ge...

LLM評価にArthur Benchを使用する方法を学ぶ

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

【ディープラーニング】敵対的生成ネットワーク(GAN)を徹底解説!

1. 概要敵対的生成ネットワーク (GAN) は、コンピューターを通じてデータを生成するために使用...

TensorFlow レビュー: 最高のディープラーニング ライブラリ、そして今も進化中

[51CTO.com クイック翻訳] バージョン r1.5 のリリースにより、Google のオープ...

アルゴリズム図: 括弧が有効かどうかを判断するにはどうすればよいでしょうか?

[[346613]]この記事はWeChatの公開アカウント「Java Chinese Commun...

人工知能は医療現場の診断や治療の決定に役立つ

必要な変更。医療制度と支払者(政府と民間の両方)において、この用語は患者への不必要なリスク、医療の質...

こんなに高い給料がもらえる機械学習の職種の面接を受けるにはどうしたらいいのでしょうか?

[[199809]]まず第一に、この質問は非常に広範囲にわたります。機械学習にはさまざまな方向性が...