150 ページの「幾何学的ディープラーニング」がオンラインになりました: 対称性と不変性を利用して機械学習の問題を解決する

150 ページの「幾何学的ディープラーニング」がオンラインになりました: 対称性と不変性を利用して機械学習の問題を解決する

過去 10 年間、データ サイエンスと機械学習の分野では驚異的な進歩が見られました。ディープラーニング手法の助けを借りて、多くの高次元学習タスク(コンピュータービジョンやタンパク質フォールディングなど)も適切なコンピューティング規模で完了できます。高次元空間における普遍的な関数の学習は非常に難しい問題ですが、ほとんどのタスクに対して方法は普遍的ではなく、物理世界の根底にある低次元性と構造には、いくつかの必要な事前定義された規則性が存在します。

グラフニューラルネットワークと幾何学的ディープラーニングにおける一連の最近の進歩は、機械学習がより詳細かつ複雑な問題を解決するのに役立つことが期待されています。

幾何学的ディープラーニングは、対称性と不変性の観点から一般化された機械学習の問題を幾何学的に統一する試みです。これらの原理は、畳み込みニューラル ネットワークの画期的なパフォーマンスとグラフ ニューラル ネットワークの最近の成功の基盤となっているだけでなく、問題固有の新しい帰納的バイアスを構築するための原理的なアプローチも提供します。

最近、「Geometric Deep Learning」というタイトルの新しい本が出版され、さまざまなアプリケーションに適用できる幾何学的統一原理を通じて規則性を明らかにしています。この「幾何学的統一」には 2 つの意味があります。一方では、CNN、RNN、GNN、Transformer などのニューラル ネットワーク アーキテクチャを研究するための一般的な数学的フレームワークを提供します。一方、これは、以前の物理的知識をニューラル アーキテクチャに統合するための構築的な手順を提供し、いくつかの新しいアーキテクチャを構築するための原理的な方法を提供します。

機械学習アーキテクチャの構築方法を教えます

「幾何学的ディープラーニング、グリッド、グループ、グラフ、測地線、ゲージ」は、ディープラーニング幾何学統合プロジェクトの最初のオンラインブックです。著者によると、この本は2020年2月に執筆を開始し、現在のバージョンは150ページを超えています。

この研究の著者4人、マイケル・M・ブロンスタイン、ジョアン・ブルーナ、タコ・コーエン、ペタル・ヴェリコビッチは、インペリアル・カレッジ・ロンドン、ニューヨーク大学、ディープマインドなどの研究機関に所属している。

リンク:
翻訳:

arXiv論文:
https://arxiv.org/abs/2104.13478

この本では、研究者は対称性、不変性、群論の観点から「一般的に使用されるすべてのニューラル アーキテクチャを構築するために必要な知識」を抽出しようとします。 CNN、GNN、Transformer、LSTM などの一般的に使用されるモデルに加えて、球状畳み込みニューラル ネットワーク (球状 CNN)、SO(3)-Transformer、ゲージ等変メッシュ CNN などの新しいモデルもカバーしています。

この本には、導入、高レベル空間での学習、幾何学的事前知識、幾何学的領域、幾何学的深層学習モデル、既存の問題とアプリケーション、歴史的展望の 7 つの章が含まれています。以下は書籍カタログです。

前提条件

「これまで群論に触れたことがない人にとって、私たちが構築する概念のいくつかは少々非現実的に思えるだろう」と、ディープマインドの上級研究科学者で本書の著者の一人、ペタル・ヴェリコビッチ氏は言う。

そのため、前置きとして著者同士の動画共有コンテンツをいくつか視聴すると、言葉では正確に表現できないコンテンツもより「鮮明」になるかもしれません。

ケンブリッジ大学でのペタル・ヴェリコビッチ氏の講演 - グラフニューラルネットワークの理論的基礎:
https://www.youtube.com/watch?v=uF53xsT7mjc

ICLR 2021におけるマイケル・ブロンスタインの基調講演:
https://iclr-conf.medium.com/announcement-the-iclr-2021-invited-speakers-db4aba84038a お知らせ

さらに、この本には次の概念が含まれています。

ドメイン: データを定義するすべての「ポイント」の集合。たとえば、画像の場合、ドメインはすべてのピクセルの集合です。グラフの場合、ドメインはすべてのノードとエッジの集合です。集合は無限または連続である可能性があることに注意してください。ただし、有限であると想像すると、計算が簡単になる場合があります。

対称群: 集合 Ω からそれ自身への全単射の集合 (g: Ω → Ω)。たとえば、画像内の各ピクセルを 1 スロット右にシフトしても、画像内のオブジェクトは変更されません。

対称変換を実行するときにオブジェクトが変更されないようにする必要があるため、次のプロパティが導入されます。

対称操作は構成可能である必要があります。たとえば、球を x 軸を中心に 30 度回転させ、次に y 軸を中心に 60 度回転させ、各回転で球上のオブジェクトが変更されないと仮定すると、複数の変換を連続して使用しても球上のオブジェクトは変更されません。つまり、x 軸を中心に 30 度回転させ、次に y 軸を中心に 60 度回転させることも対称操作になります。一般に、g と h が対称操作である場合、goh も対称操作になります。

対称操作は可逆的でなければなりません。つまり、基になるオブジェクトを変更していない場合は、元の状態に戻れる必要があります (そうでない場合は、情報が失われることになります)。したがって、球体を時計回りに 30 度回転させた場合、反時計回りに 30 度回転させることによって元のアクションを「元に戻す」ことができます。 g が対称である場合、g^-1 が存在する必要があります (また対称でなければなりません)。これにより、gog^-1 = id (同一性) になります。

ドメイン保存アイデンティティ関数 (id) も対称である必要があります。

これらの特性をすべて足し合わせると、すべての対称集合と結合演算子 (o) がグループを形成し、それが本書で広く使用されている数学的構造であることがわかります。

対称性の重要性は、機械学習コミュニティ、特にパターン認識とコンピューター ビジョン アプリケーションにおいて長い間認識されてきました。等価特徴検出に関する初期の研究は、前世紀の天利俊一とライナー レンツの研究にまで遡ることができます。ニューラル ネットワークの分野では、マービン ミンスキー氏とシーモア パパート氏によって提唱されたパーセプトロンの群不変性定理が、(単層) パーセプトロンが不変性を学習する能力の基本的な定義を提供します。これがその後の多層アーキテクチャの研究の出発点となり、最終的にはディープラーニングへとつながりました。

<<:  蔡子星院士:オープンソースは人工知能開発の新たなトレンド

>>:  ロボットがお手伝いします。楽しいメーデーを楽しみましょう!

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...

AIの進化:「テクノロジーは2つの道に分かれる」

この記事はWeChatの公開アカウント「Product Second Sister」から転載したもの...

機械知能のための TensorFlow 実践: 製品環境へのモデルの導入

TesnsorFlow を使用して、基本的な機械学習モデルから複雑なディープラーニング ネットワーク...

マスク氏はAIに無料でデータを取得させない:Twitterは閉鎖され、ログインしないと誰も見ることができない

現在、Twitter アカウントにログインしないと、Twitter コンテンツの Web バージョン...

人工知能の時代においても、人間同士の交流は依然として重要である

実際、AI はほとんどの人間同士のやり取りに取って代わっています。デジタルアシスタントや AI ベー...

一般相対性理論の予測に沿って、M87ブラックホールの最新の研究結果がネイチャー誌に掲載されました。

9月27日、ネイチャー誌は45の機関からなる国際科学研究チームの最新の研究成果を発表した。 200...

ターミネータースカイネット?国防総省は、敵の行動を数日前に予測できるAI予測システムGIDEをリリースした

[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...

緩い時代は終わった:米国の自動運転規制環境は静かに厳格化している

米国の自動運転業界を取り巻く規制環境は静かに変化しつつある。過去10年間、米国は世界の自動運転分野に...

米国保健福祉省がAIとブロックチェーンを活用してサービスを改善する方法

今日、ますます多くの国や地域が、業務効率の向上、国民へのより良いサービスの提供、そして任務遂行能力の...

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

[[334032]]顔認識と 3D テクノロジーが融合したとき、最終的な勝者は誰になるでしょうか? ...

転移学習に関する最先端の研究:低リソース、ドメイン一般化、安全な転移

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

ローコード プラットフォームに関する不完全な推奨事項!

ソフトウェア開発者向けのローコード機能それでは、ソフトウェア開発者に機械学習機能を提供するローコード...

ガートナーは、信頼、成長、変化を通じてイノベーションを推進する新興テクノロジーをリストアップ

[[419256]] [51CTO.com クイック翻訳]信頼の設計、成長の加速、変化の形成は、ガー...

確かな情報です! AIテクノロジーアーキテクチャソリューションの実現可能性を判断するのに役立つ3つの重要な要素

近年、人工知能は急速に発展しており、コンピュータービジョンや自然言語処理の分野で画期的な変化をもたら...

...