すべては可能だ：コンピュータビジョンCVとNLPの分野はますます融合している

[[347900]]

2020年10月、ディープラーニング分野のトップカンファレンスであるICLR 2021の論文投稿が終了しました。

このイベントでは、いくつかの著名人がディープラーニングの分野で新たな進歩を遂げました。この技術の変化はどのような影響をもたらすのでしょうか? Dongfang Linyu がお話しします。

CV コンピュータビジョンの分野における人工知能の応用では、CNN 畳み込みニューラルネットワークが常に主流の地位を占めてきました。

Transformer アーキテクチャは、NLP 自然言語処理タスクで広く使用されています。

両分野において、それぞれの技術は独自の強みを持ち、互いに干渉することはありません。

しかし、近年、専門家や学者はNLP分野でTransformerに関する国境を越えた研究に取り組んでおり、一定期間の実験を経て、いくつかの画像シナリオで非常に良い結果を達成しています。

ICLR 2021 には、標準的な Transformer アーキテクチャをコンピュータービジョンの分野に直接適用し、新しい Vision Transformer モデルを提案し、複数の画像認識ベンチマークで現在の SOTA 方式に近いかそれ以上のパフォーマンスを実現する論文が掲載されています。

SOTA は state-of-the-art の略です。論文が SOTA と呼べるということは、提案されたアルゴリズム（モデル）の性能が現時点で最高であることを意味します。

この研究では、CNN への依存は必要ではなく、画像パッチのシーケンスに直接適用すると、トランスフォーマーが画像分類タスクで優れたパフォーマンスを発揮できることが示されています。

テスラAIの責任者であるアンドレイ・カルパシー氏は、この論文を具体的に転送し、次のように述べた。

コンピュータービジョンと NLP の分野の統合が進んでいることを嬉しく思います。

技術の進歩により、すべてが可能になります。

NLP VS CV モデルのクロスボーダー学習が実行できれば、画像ビジョンの分野で Transformer は本来のリーダーである CNN の座を奪えるでしょうか?

これは非常に興味深い提案です。

ICLR 2021で注目に値する寄稿はありますか？Zhihuで、あるネットユーザーはこう言いました。

私たちは今、大きなモデルチェンジの前夜に立っており、ニューラルネットワークの可能性はまだまだ無限大です。 CV と AI の世界全体を覆すのに十分な強力な新しいモデルが、氷山の一角を明らかにし、本格的に導入されようとしています。

人工知能は、基礎科学、ビジネスシナリオ、データ品質、エンジニアリング実践などの技術分野を密接に統合する必要がある総合的な分野であり、近年ではさらに多くの他の方向を統合しています。

人工知能のさまざまな分野は、技術的に統合したり、相互に置き換えたりすることができます。それはまた私たちにさらなるインスピレーションをもたらすかもしれません:

私たち人間は、自分の快適な領域から抜け出すことで、さまざまな分野を学び、統合し、変化する社会によりよく適応することができます。

デジタル化が徐々に世界を支配するにつれて、AI技術の統合と人間との国境を越えた統合は、社会の進歩にとってより強力な原動力となるでしょう。

あなたが思うこと？

AI の知識をさらに深めるには、Dongfang Linyu をフォローしてください。

<<: ハードウェアとコードを分離し、APIを安定化したPyTorch Lightning 1.0.0が正式リリース

>>: お金は人を幸せにできるのでしょうか？機械学習を使って答えを見つける方法を教えます

将来、運転手や運転免許証は必要なくなるのでしょうか？自動運転車はどれくらい遠いのでしょうか?

すべては可能だ：コンピュータビジョンCVとNLPの分野はますます融合している

将来、運転手や運転免許証は必要なくなるのでしょうか？自動運転車はどれくらい遠いのでしょうか?

クラウドコンピューティングにおいて人工知能はどのような役割を果たすのでしょうか?

Gonex CEO ウェン・メンフェイ氏との独占インタビュー: アプリケーションの分野では、モデル自体よりも意図の認識の方が重要です。

人工知能と機械学習の時代に新たなサイバー脅威にどう対抗するか

オープンソースのビデオ切り抜き技術が人気です！背景を変える方法は、それが真実か嘘かを判断するのが非常に難しい

エッジ AI がインダストリー 4.0 の成果を推進する方法

ヘルスケアにおける自然言語処理 (NLP) の 8 つの例

推薦する

2019年中国インテリジェント製造業のトップ10の発展トレンド！

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか？

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

単純なOEMを拒否し、人工知能を備えた製造業は明るい未来を持っています

パイプラインロボットは都市の安全を守り、夏の雷雨も恐れない

Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

Wikipedia+巨大模型で幻想を破れ！スタンフォードWikiChatはGPT-4を上回り、精度は97.3%

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

人工知能が学習と発達に及ぼす7つの影響

Apple の「マトリョーシカ」拡散モデルはトレーニングステップ数を 70% 削減します。

毎日のアルゴリズム: 二分木のレベルトラバーサル

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

ロボットが家庭に入り、人工知能の夢はもはや高価ではない

人工知能は科学研究に革命を起こす力を持っている

スマートデバイスとエッジコンピューティングはどのように発展するのでしょうか?