すべては可能だ:コンピュータビジョンCVとNLPの分野はますます融合している

すべては可能だ:コンピュータビジョンCVとNLPの分野はますます融合している

[[347900]]

2020年10月、ディープラーニング分野のトップカンファレンスであるICLR 2021の論文投稿が終了しました。

このイベントでは、いくつかの著名人がディープラーニングの分野で新たな進歩を遂げました。この技術の変化はどのような影響をもたらすのでしょうか? Dongfang Linyu がお話しします。

CV コンピュータ ビジョンの分野における人工知能の応用では、CNN 畳み込みニューラル ネットワークが常に主流の地位を占めてきました。

Transformer アーキテクチャは、NLP 自然言語処理タスクで広く使用されています。

[[347901]]

両分野において、それぞれの技術は独自の強みを持ち、互いに干渉することはありません。

しかし、近年、専門家や学者はNLP分野でTransformerに関する国境を越えた研究に取り組んでおり、一定期間の実験を経て、いくつかの画像シナリオで非常に良い結果を達成しています。

ICLR 2021 には、標準的な Transformer アーキテクチャをコンピューター ビジョンの分野に直接適用し、新しい Vision Transformer モデルを提案し、複数の画像認識ベンチマークで現在の SOTA 方式に近いかそれ以上のパフォーマンスを実現する論文が掲載されています。

SOTA は state-of-the-art の略です。論文が SOTA と呼べるということは、提案されたアルゴリズム(モデル)の性能が現時点で最高であることを意味します。

この研究では、CNN への依存は必要ではなく、画像パッチのシーケンスに直接適用すると、トランスフォーマーが画像分類タスクで優れたパフォーマンスを発揮できることが示されています。

テスラAIの責任者であるアンドレイ・カルパシー氏は、この論文を具体的に転送し、次のように述べた。

コンピューター ビジョンと NLP の分野の統合が進んでいることを嬉しく思います。

技術の進歩により、すべてが可能になります。

NLP VS CV モデルのクロスボーダー学習が実行できれば、画像ビジョンの分野で Transformer は本来のリーダーである CNN の座を奪えるでしょうか?

これは非常に興味深い提案です。

ICLR 2021で注目に値する寄稿はありますか?Zhihuで、あるネットユーザーはこう言いました。

私たちは今、大きなモデルチェンジの前夜に立っており、ニューラル ネットワークの可能性はまだまだ無限大です。 CV と AI の世界全体を覆すのに十分な強力な新しいモデルが、氷山の一角を明らかにし、本格的に導入されようとしています。

人工知能は、基礎科学、ビジネスシナリオ、データ品質、エンジニアリング実践などの技術分野を密接に統合する必要がある総合的な分野であり、近年ではさらに多くの他の方向を統合しています。

人工知能のさまざまな分野は、技術的に統合したり、相互に置き換えたりすることができます。それはまた私たちにさらなるインスピレーションをもたらすかもしれません:

私たち人間は、自分の快適な領域から抜け出すことで、さまざまな分野を学び、統合し、変化する社会によりよく適応することができます。

デジタル化が徐々に世界を支配するにつれて、AI技術の統合と人間との国境を越えた統合は、社会の進歩にとってより強力な原動力となるでしょう。

あなたが思うこと?

AI の知識をさらに深めるには、Dongfang Linyu をフォローしてください。

<<:  ハードウェアとコードを分離し、APIを安定化したPyTorch Lightning 1.0.0が正式リリース

>>:  お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

ブログ    
ブログ    

推薦する

顔認証決済だけでは不十分、マスターカードは歩行、心拍、静脈による決済を検討

[[317535]]顔認証決済や指紋認証決済だけでは不十分だ。世界的決済ソリューション大手のマスター...

...

人工知能が台頭しています。インテリジェントセキュリティの開発はどのように進んでいますか?

セキュリティ業界は、人工知能の市場を長く有する業界として、人工知能の発展に対する理解がより明確で、そ...

リカレントニューラルネットワークの簡単な紹介

リカレント ニューラル ネットワーク (RNN) とは何ですか? どのように機能しますか? どこで使...

91.3%の成長、「スマート」な製造業の実現は協働ロボットにかかっている

中国は、インダストリー4.0の提案と国家インテリジェント製造2025開発計画の公布により、製造大国か...

ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

GPT-4のアップデート機能により、AIを使って歴史をシミュレートすることは、単なる「テキストロール...

...

中国科学技術大学が提案したCNNとTransformerのデュアルネットワークモデルの精度は84.1%にも達する

[[416636]] Transformer と CNN はどちらも独自の利点を持ち、視覚表現を処理...

中国の人工知能産業市場はどれくらい大きいのでしょうか? 2021年の6つの主要トレンド

2016年、AlphaGoが囲碁九段の名人であるイ・セドル氏を破り、大きな話題となり、人工知能の話題...

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

...

科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に

コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...

マイクロソフトが Project Brainwave リアルタイム AI プラットフォームの詳細を公開

Project Brainwave は、主にリアルタイムの人工知能アプリケーションを対象とした Mi...

エッジAIとクラウドAIのバランスを見つける

エッジ AI により、ローカライズされた処理を通じてリアルタイムの機械学習が可能になり、即時のデータ...

バックプロパゲーションを用いた多層ニューラルネットワークのトレーニングの原理

記事「バックプロパゲーションを使用した多層ニューラル ネットワークのトレーニングの原理」では、バック...