ついに!この強力な「オープンソース画像認識システム」がオンラインになりました!

ついに!この強力な「オープンソース画像認識システム」がオンラインになりました!

  [[407147]]

画像認識といえば、皆さんすでによくご存知だと思います。この技術は、顔認証、決済、出勤記録、ホテルチェックイン、カメラによる違法運転の識別、セレブの商品をオンラインで購入する際の画像検索、自動運転車の運転支援、医療画像の補助診断、画像や動画の分析、編集、再現など、私たちの生活のあらゆる側面に深く組み込まれてきました。

これらはすべて画像分類とターゲット検出のアプリケーションではないのかと疑問に思う人もいるかもしれません。しかし、その背後にはさらに多くのものがあり、メトリック学習や画像検索もあり、現在ではさまざまな機能を統合した[ユニバーサル画像認識システム]もあり、1つのシステムであらゆる分野のソリューションを簡単に手に入れることができ、上記のアプリケーションシナリオをカバーしています。

急いでStarで節約しましょう:

https://github.com/PaddlePaddle/PaddleClas

では、このプロジェクトの何が特別なのでしょうか? 画像認識は、画像分類や物体検出よりもどう優れているのでしょうか?

[製品認識]を例に挙げてみましょう。簡単な画像分類と物体検出を使用すると、次のことがわかります。

製品カテゴリは数万種類あり、すべてのカテゴリを事前にトレーニング セットに入れることは不可能です。トレーニング セットが不完全な場合、アルゴリズムをトレーニングするにはどうすればよいですか?

サンプル カテゴリは非常に不均衡です。各カテゴリの製品数は不均等に分散されており、一部のカテゴリには写真が 1 枚または 2 枚しかありません。このようなカテゴリをアルゴリズムでトレーニングしたとしても、認識精度は依然として非常に低くなります。

製品カテゴリは非常に速く更新されます。さまざまな販売者が常に新しいカテゴリを立ち上げており、新しい製品が追加されるたびに、モデルを多大な労力で再トレーニングする必要があります。

画像認識を使用すると、上記の問題を完全に解決できるだけではありません。すぐに始められて、理解しやすいです。識別するオブジェクトの画像を準備したら、複数のカテゴリ、小さなサンプル、データの不均衡の問題を解決するのに必要なのは 3 つのステップだけです。商品認識だけでなく、車両、顔、ロゴ、歩行者も認識可能! ! !識別したいものを何でも識別しましょう! (自由を感じる!)

さらに、この画像認識システムの 4 つのコア コンポーネントはすべて慎重に磨き上げられています。単独で使用しても、連続して使用しても、驚くべき効果があります。

被写体検出: 高精度かつ超軽量の PP-YOLOv2 検出アルゴリズムを使用して、画像の被写体を素早く検出し、認識効率を向上させます。

バックボーン ネットワーク: 最も洗練されたモバイル モデルと高精度のサーバー モデルをカバーする 6 シリーズのバックボーンを選択し、さまざまな使用シナリオのニーズに合わせて構造を迅速に変更できるようにします。

メトリック学習: ArcMargin、CenterLoss、TriHard などの業界最先端のメトリック学習手法を統合し、任意に組み合わせて堅牢な画像機能を簡単にトレーニングできます。

検索システム: Baidu が独自に開発した Möbius アルゴリズムを統合し、ベクトル検索を効率的に完了し、検索ライブラリをいつでも更新できるため、一度のトレーニングで長期使用が可能になります。

開発者は、これら 4 つのモジュールを個別に使用したり、独立して組み立てたりできるだけでなく、車両認識、ロゴ認識、製品認識、アニメーション認識の 4 つの構築されたシステムを直接採用することもできます。検索ライブラリを追加するだけで、すぐに制作を開始できます。

このような強力で思慮深いプロジェクト、何を待っていますか? !急いで🌟スター🌟をコレクションに追加して参加しましょう!

ポータル:

https://github.com/PaddlePaddle/PaddleClas

クイック体験:

https://github.com/PaddlePaddle/PaddleClas/blob/release%2F2.2/docs/zh_CN/tutorials/quick_start_recognition.md

<<:  AI は教育にどのように役立つのでしょうか?

>>:  NVIDIA が Canvas を発表: AI を活用してシンプルな筆遣いをフォトリアリスティックな風景画に変換

ブログ    
ブログ    

推薦する

人生の意味とは何でしょうか?ステーションBのUP司会者がAIに「究極の質問」を投げかけた

人生の意味とは何でしょうか?人はなぜ生きるのか?これらの「宇宙の究極の疑問」は、歴史を通じて数え切れ...

GenAI 時代の 12 の新しい仕事

GenAI は人間に取って代わるのではなく、熟練労働者、つまり GenAI を管理し最大限に活用する...

Google Robotics Research Scientist: ML 論文の要点を素早く理解するための 5 つの質問を覚えておきましょう

[[382214]]編纂者:Qi Lubei編集者:陳彩仙機械学習の分野は非常にホットであり、新しい...

自然言語処理におけるディープラーニングの応用

自然言語処理とは、自然言語を使用して人間とコンピューターが効果的にコミュニケーションするためのさまざ...

サーバーレス コンピューティングによる機械学習の解決策は何でしょうか?

1. 機械学習とサーバーレス学習1.1. 機械学習 (ML) はアプリケーション シナリオでどのよ...

国家人工知能実験区の数は 8 つに増えました。なぜこの 5 つの都市が選ばれたのでしょうか?

丑年の最初の仕事週に、国家人工知能イノベーションおよび応用パイロットゾーンの数が増加しました。工業情...

人工知能は国家戦略となり、今こそこれらの人々にとって良い機会である

人工知能が私たちの生活に大きな利便性をもたらすことができるのは、その背後に多くの機能があるからです。...

...

人工知能はユーザーのメッセージング体験を変える

Emogi は、チャット アプリでテキストを送信したり、投稿にコメントしたり、友人にビデオを送信した...

認知マップの科学的インベントリ: グローバルな第3世代AIの「大きな」機会

近年、人工知能 (AI) は、ディープラーニング、コンピューター ビジョン、自然言語処理などの技術革...

このアルゴリズムは顔認識の「マスク」問題を解決し、2日間で1,000人のコミュニティで97%の精度を達成しました | AIが疫病と戦う

ますます成熟する人工知能は、新型コロナウイルス感染症対策の最前線で「逆転者」と呼ばれる特別な集団とな...

成都初の無人地下鉄が運行開始。列車の前方からの眺めはまるで時空を旅しているかのようだ

毎日地下鉄に乗るとき、トンネルを高速で走る列車の前方風景を見たことがありますか?11月13日、成都初...

A*アルゴリズムのC#実装に関する簡単な説明

もちろん、主な参照アルゴリズム ドキュメントは「http://www.vckbase.com/doc...

ユーザーの旅行需要予測

1. 背景と課題1. 背景Fliggy アプリ、Alipay、Taobao では、航空券、鉄道チケッ...

Ali Wensheng ビデオが Gen-2 と Pika に挑戦、1280×720 の解像度で圧迫感なし、3500 万のテキスト ビデオ表示効果

ヴィンセントのビデオはどの程度詳細にできますか?最近、アリババの調査により、1280×720 の解像...