すべては可能だ:コンピュータビジョンCVとNLPの分野はますます融合している

すべては可能だ:コンピュータビジョンCVとNLPの分野はますます融合している

[[347900]]

2020年10月、ディープラーニング分野のトップカンファレンスであるICLR 2021の論文投稿が終了しました。

このイベントでは、いくつかの著名人がディープラーニングの分野で新たな進歩を遂げました。この技術の変化はどのような影響をもたらすのでしょうか? Dongfang Linyu がお話しします。

CV コンピュータ ビジョンの分野における人工知能の応用では、CNN 畳み込みニューラル ネットワークが常に主流の地位を占めてきました。

Transformer アーキテクチャは、NLP 自然言語処理タスクで広く使用されています。

[[347901]]

両分野において、それぞれの技術は独自の強みを持ち、互いに干渉することはありません。

しかし、近年、専門家や学者はNLP分野でTransformerに関する国境を越えた研究に取り組んでおり、一定期間の実験を経て、いくつかの画像シナリオで非常に良い結果を達成しています。

ICLR 2021 には、標準的な Transformer アーキテクチャをコンピューター ビジョンの分野に直接適用し、新しい Vision Transformer モデルを提案し、複数の画像認識ベンチマークで現在の SOTA 方式に近いかそれ以上のパフォーマンスを実現する論文が掲載されています。

SOTA は state-of-the-art の略です。論文が SOTA と呼べるということは、提案されたアルゴリズム(モデル)の性能が現時点で最高であることを意味します。

この研究では、CNN への依存は必要ではなく、画像パッチのシーケンスに直接適用すると、トランスフォーマーが画像分類タスクで優れたパフォーマンスを発揮できることが示されています。

テスラAIの責任者であるアンドレイ・カルパシー氏は、この論文を具体的に転送し、次のように述べた。

コンピューター ビジョンと NLP の分野の統合が進んでいることを嬉しく思います。

技術の進歩により、すべてが可能になります。

NLP VS CV モデルのクロスボーダー学習が実行できれば、画像ビジョンの分野で Transformer は本来のリーダーである CNN の座を奪えるでしょうか?

これは非常に興味深い提案です。

ICLR 2021で注目に値する寄稿はありますか?Zhihuで、あるネットユーザーはこう言いました。

私たちは今、大きなモデルチェンジの前夜に立っており、ニューラル ネットワークの可能性はまだまだ無限大です。 CV と AI の世界全体を覆すのに十分な強力な新しいモデルが、氷山の一角を明らかにし、本格的に導入されようとしています。

人工知能は、基礎科学、ビジネスシナリオ、データ品質、エンジニアリング実践などの技術分野を密接に統合する必要がある総合的な分野であり、近年ではさらに多くの他の方向を統合しています。

人工知能のさまざまな分野は、技術的に統合したり、相互に置き換えたりすることができます。それはまた私たちにさらなるインスピレーションをもたらすかもしれません:

私たち人間は、自分の快適な領域から抜け出すことで、さまざまな分野を学び、統合し、変化する社会によりよく適応することができます。

デジタル化が徐々に世界を支配するにつれて、AI技術の統合と人間との国境を越えた統合は、社会の進歩にとってより強力な原動力となるでしょう。

あなたが思うこと?

AI の知識をさらに深めるには、Dongfang Linyu をフォローしてください。

<<:  ハードウェアとコードを分離し、APIを安定化したPyTorch Lightning 1.0.0が正式リリース

>>:  お金は人を幸せにできるのでしょうか?機械学習を使って答えを見つける方法を教えます

ブログ    
ブログ    
ブログ    

推薦する

2019年中国インテリジェント製造業のトップ10の発展トレンド!

2018年、中国政府による関連支援政策の導入とインテリジェント製造プロセスの推進により、わが国のイ...

ロボットが仕事を独占するなら、私たちの仕事は誰が守ってくれるのでしょうか?

ロボットが人間の仕事を奪いつつあることは、何も新しいことではありません。産業技術の発展に伴い、将来的...

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

[[347520]]今日私たちが直面している脅威の状況は絶えず変化しています。世界的に、法執行機関...

単純なOEMを拒否し、人工知能を備えた製造業は明るい未来を持っています

国民経済と国民生活に関わる基幹産業として、製造業における新技術や新政策は主要メディアの注目の的となっ...

パイプラインロボットは都市の安全を守り、夏の雷雨も恐れない

夏がまたやって来て、雷雨がまた虫を追い払います。最近では、夏の気温が上昇し続けているため、雨天が多く...

Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

1. メタ学習1. パーソナライズモデリングの問題点推奨シナリオでは、データの 80% 分布の問題に...

Wikipedia+巨大模型で幻想を破れ!スタンフォードWikiChatはGPT-4を上回り、精度は97.3%

大規模言語モデルの幻覚問題が解決されました!最近、スタンフォード大学の研究者が、幻覚をほとんど起こさ...

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

10月27日、外国メディアは、人工知能企業Jina AIがこのほど、第2世代のテキスト埋め込みモデル...

人工知能が学習と発達に及ぼす7つの影響

急速に進化する今日のテクノロジー環境において、人工知能 (AI) はあらゆる業界に革命を起こす可能性...

Apple の「マトリョーシカ」拡散モデルはトレーニング ステップ数を 70% 削減します。

Apple による最近の研究により、高解像度画像における拡散モデルのパフォーマンスが大幅に向上しま...

毎日のアルゴリズム: 二分木のレベルトラバーサル

[[423982]]バイナリ ツリーが与えられた場合、そのノード値のボトムアップ レベルのトラバーサ...

ロボットは独自の言語を作り、将来的には自律的にコミュニケーションできるようになるのでしょうか?

[[187107]]人工知能技術は飛躍的に進歩していますが、人工知能間のコミュニケーションの問題は...

ロボットが家庭に入り、人工知能の夢はもはや高価ではない

[[221538]]人工知能とは何ですか? 「第一次産業革命における蒸気機関、第二次産業革命における...

人工知能は科学研究に革命を起こす力を持っている

人工知能 (AI) は、コンピューター サイエンス、数学、心理学、言語学などの分野が関わる学際的な分...

スマートデバイスとエッジコンピューティングはどのように発展するのでしょうか?

エッジコンピューティングが増加しています。 AI とネットワークの進歩を組み合わせて、より強力なロー...