グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

グラフニューラルネットワークは CV の未来でしょうか?中国科学院ソフトウェア研究所は、ViTを上回る新しいCVモデルViGをリリースした。

コンピュータービジョンのネットワーク構造は新たな革命を迎えようとしているのでしょうか?

畳み込みニューラル ネットワークから注意メカニズムを備えた視覚トランスフォーマーまで、ニューラル ネットワーク モデルは入力画像をグリッドまたはパッチ シーケンスとして扱いますが、このアプローチでは変化するオブジェクトや複雑なオブジェクトをキャプチャすることはできません。

例えば、人間が絵を観察するとき、その絵全体を自然に複数のオブジェクトに分割し、オブジェクト間の空間的などの位置関係を構築します。つまり、人間の脳にとって絵全体はグラフであり、オブジェクトはそのグラフ上のノードであるということです。

最近、中国科学院ソフトウェア研究所、華為ノアの方舟研究所、北京大学、マカオ大学の研究者らが共同で、視覚タスク向けに画像からグラフレベルの特徴を抽出できる新しいモデルアーキテクチャ、Vision GNN (ViG) を提案しました。

論文リンク: https://arxiv.org/pdf/2206.00272.pdf

まず、画像をグラフのノードとしていくつかのパッチに分割し、最も近いパッチを接続してグラフを構築します。次に、ViG モデルを使用して、グラフ全体のすべてのノードの情報を変換および交換します。

ViG は 2 つの基本モジュールで構成されています。Grapher モジュールはグラフ畳み込みを使用してグラフ情報を集約および更新し、FFN モジュールは 2 つの線形レイヤーを使用してノード機能を変換します。

画像認識や物体検出タスクの実験でも、ViG アーキテクチャの優位性が実証されています。一般的な視覚タスクにおける GNN の先駆的な研究は、将来の研究に役立つインスピレーションと経験をもたらすでしょう。

論文の著者は、中国科学院ソフトウェア研究所の博士課程の指導者であり、マカオ大学の名誉教授である呉恩華教授です。呉教授は、1970 年に清華大学の工学機械数学部を卒業し、1980 年に英国マンチェスター大学のコンピュータサイエンス学部で博士号を取得しました。主な研究分野はコンピュータグラフィックスと仮想現実で、仮想現実、リアルなグラフィックス生成、物理ベースのシミュレーションとリアルタイムコンピューティング、物理ベースのモデリングとレンダリング、画像とビデオの処理とモデリング、ビジュアルコンピューティング、機械学習などが含まれます。

ビジュアルGNN

ネットワーク構造は、パフォーマンスを向上させる上で最も重要な要素となることが多く、データの量と質が保証されていれば、モデルを CNN から ViT に変更することで、よりパフォーマンスの高いモデルを得ることができます。

しかし、ネットワークが異なれば入力画像の扱いも異なります。CNN は画像上でウィンドウをスライドさせ、変換不変性とローカル機能を導入します。

ViT と多層パーセプトロン (MLP) は、画像をパッチ シーケンスに変換します。たとえば、224×224 の画像を複数の 16×16 パッチに分割し、最終的に長さ 196 の入力シーケンスを形成します。

グラフ ニューラル ネットワークはより柔軟です。たとえば、コンピューター ビジョンでは、画像内のオブジェクトを認識することが基本的なタスクです。オブジェクトは通常は四辺形ではなく不規則な形状である可能性があるため、ResNet や ViT などの以前のネットワークで一般的に使用されていたグリッドまたはシーケンス構造は冗長であり、処理が柔軟ではありません。

物体は複数の部分から構成されていると見なすことができます。たとえば、人間は大まかに頭、上半身、腕、脚に分けることができます。

これらのパーツは関節でつながっており、自然にグラフィック構造を形成しています。このグラフを解析することで、最終的にこの物体が人間である可能性があると認識できます。

さらに、グラフは一般的なデータ構造であり、グリッドとシーケンスはグラフの特殊なケースとして見ることができます。画像をグラフとして表示すると、視覚的に柔軟かつ効果的になります。

グラフ構造を使用するには、入力画像を複数のパッチに分割し、各パッチをノードとして扱う必要があります。各ピクセルをノードとして扱うと、グラフ内のノードの数が多すぎます (>10K)。

グラフが確立された後、まずグラフ畳み込みニューラル ネットワーク (GCN) を使用して、隣接するノード間の特徴を集約し、画像の表現を抽出します。

GCN がより多様な特徴を取得できるようにするために、著者はグラフ畳み込みにマルチヘッド操作を適用します。集約された特徴は、異なる重みを持つヘッドによって更新され、最終的に画像表現にカスケードされます。

従来の GCN では通常、複数のグラフ畳み込み層を再利用してグラフ データの集約的な特徴を抽出していましたが、ディープ GCN の過剰平滑化現象によりノード特徴の一意性が低下し、視覚認識のパフォーマンスが低下していました。

この問題を緩和するために、研究者は ViG ブロックにさらに多くの特徴変換と非線形活性化関数を導入しました。

まず、グラフ畳み込みの前後に線形レイヤーを適用して、ノード機能を同じドメインに投影し、機能の多様性を高めます。層の崩壊を避けるために、グラフ畳み込みの後に非線形活性化関数が挿入されます。

特徴変換能力をさらに向上させ、過剰平滑化現象を軽減するためには、各ノードでフィードフォワードネットワーク (FFN) を使用することも必要です。 FFN モジュールは、2 つの完全に接続された層を持つ単純な多層パーセプトロンです。

Grapher モジュールと FFN モジュールでは、各完全接続層またはグラフ畳み込み層の後にバッチ正規化が実行されます。Grapher モジュールと FFN モジュールの積み重ねによって ViG ブロックが構成され、これは大規模ネットワークを構築するための基本単位でもあります。

オリジナルの ResGCN と比較して、新しく提案された ViG は特徴の多様性を維持でき、レイヤーが追加されるにつれてネットワークはより強力な表現を学習することもできます。

コンピュータビジョンのネットワークアーキテクチャでは、一般的に使用されるTransformerモデルは通常、等方性構造(ViTなど)を持ちますが、CNNはピラミッド構造(ResNetなど)を使用する傾向があります。

他のタイプのニューラル ネットワークと比較するために、研究者は ViG 用に等方性ネットワーク アーキテクチャとピラミッド型ネットワーク アーキテクチャの両方を構築しました。

実験比較段階では、研究者らは画像分類タスク用に、1,000 のカテゴリ、1 億 2,000 万枚のトレーニング画像、および 5 万枚の検証画像を含む ImageNet ILSVRC 2012 データセットを選択しました。

ターゲット検出タスクでは、118,000 枚のトレーニング画像と 5000 枚の検証セット画像を含む、80 個のターゲット カテゴリを持つ COCO 2017 データセットが選択されました。

等方性 ViG アーキテクチャでは、主な計算プロセス中にフィーチャ サイズを変更せずに維持できるため、拡張が容易で、ハードウェア アクセラレーションに適しています。既存の等方性 CNN、Transformer、MLP と比較すると、ViG は他のタイプのネットワークよりも優れたパフォーマンスを発揮することがわかります。その中で、ViG-Ti は 73.9% のトップ 1 精度を達成しました。これは、計算コストが同程度であるにもかかわらず、DeiT-Ti モデルよりも 1.7% 高い値です。

ピラミッド構造の ViG では、ネットワークが深くなるにつれて特徴マップの空間サイズが徐々に縮小され、画像のスケール不変特性を利用して同時にマルチスケール特徴が生成されます。

ほとんどの高性能ネットワークは、ResNet、Swin Transformer、CycleMLP などのピラミッド構造を使用します。 Pyramid ViG をこれらの代表的なピラミッド ネットワークと比較すると、Pyramid ViG ファミリーは CNN、MLP、Transformer などの最先端のピラミッド ネットワークを上回るか、それに匹敵することがわかります。

結果は、グラフ ニューラル ネットワークが視覚タスクをうまく実行でき、コンピューター ビジョン システムの基本的な構成要素になる可能性があることを示しています。

ViG モデルのワークフローをよりよく理解するために、研究者は ViG-S で構築されたグラフ構造を視覚化しました。 2 つの異なる深さ (ブロック 1 と 12) のサンプルの図 1。五芒星は中心ノードであり、同じ色のノードはその隣接ノードです。すべてのエッジを描画すると煩雑になるため、中央の 2 つのノードのみを視覚化します。

ViG モデルはコンテンツ関連のノードを一次近傍として選択できることがわかります。浅いレベルでは、色やテクスチャなどの低レベルおよびローカルな特徴に基づいて隣接ノードが選択されることが多いです。深いレイヤーでは、中心ノードの隣接ノードはより意味的であり、同じカテゴリに属します。 ViG ネットワークは、コンテンツと意味表現を通じてノードを徐々に接続し、オブジェクトをより適切に認識するのに役立ちます。​

<<:  7.4K スター! わずか数分で機械学習モデル用の美しいインタラクティブ インターフェースを生成できます

>>:  AI と ROI に関する真実: AI は本当に成果をもたらすことができるのか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能の時代に教育はどのように適応すべきでしょうか?

これからの学びは、従来の学校中心の島型ではなく、新しいタイプの島型になります。家庭、インターネット、...

Meta、調整可能な照明とリアルな髪を備えたリアルタイム3Dアバター合成方式を発表

2021年、Facebookは「メタバース」を主力事業とし、社名をMetaに変更した。しかし、今年は...

CIO が AI を活用して地位を向上させる 3 つの方法

組織内の利害関係者の視点から IT の役割を理解することは、IT がどのように変革する必要があるかを...

人工知能が建設業界の様相を変えている

建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...

6月にはロボット産業が再び活況を呈し、数十億元の資金調達が相次いだ。

科学技術の継続的な発展により、ロボットは業界でますます注目され、支持されるようになっています。ロボッ...

人間の脳をインターネットに接続するときは注意してください

[[264958]]将来、道を歩いていて急にお腹が空いたとき、今のように検索エンジンを使って検索する...

なぜ今でもMocha DHT-PHEVのような電源ソリューションが必要なのでしょうか?

2021年、国内の新エネルギー乗用車市場はチップ不足や電池原材料価格の高騰など予想外の事態に見舞わ...

人工知能開発の新たな方向性

1. 大規模収集:あらゆる方向から情報を収集するデータ収集システムは、信号、センサー、アクチュエータ...

人工知能技術が現代農業の発展を促進する

わが国の著名な学者である周海中氏は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよう...

Go 言語アルゴリズムの美しさ - 高度なソート

[[415242]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

AIがデータセンター運営者が直面する課題をどう解決するか

業界の専門家が、業界内で発生する運用上の課題の解決に AI がどのように役立つか、データ センター業...

ジェネレーティブ AI: 職場の CIO にとって未知の要素

組織のエンドユーザーとますますインテリジェントになるソフトウェア ツールとの間の生産的なパートナーシ...

人工知能技術が医療の精度をさらに向上

マクロ的な視点で見ると、人工知能(AI)は労働力を補完する存在です。AIはデータに基づく意思決定のツ...

サイバーセキュリティにおける AI と機械学習の 7 つのプラスとマイナスの影響

人工知能 (AI) と機械学習 (ML) のテクノロジーは、サイバーセキュリティを含め、今や私たちの...