Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

背景

Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました(https://ai.baidu.com/customize/app/model/)。画像処理におけるディープラーニングが成熟するにつれて、CNN ベースの転移学習が非常に効果的であることが証明されました。ますます多くの従来型ビジネスやインターネット ビジネスが、効率性と自動化を向上させるためにビジネスをアップグレードする必要に直面しています。電子商取引の画像検索など、大量の画像をリアルタイムで処理する必要がある状況でも、テキスト検索と同様に、画像を使用して類似商品を検索することが必要になってきています。

ディープラーニングの分野では常に人材が不足しており、従来の企業には独自のディープラーニングモデルをトレーニングする方法がありません。さらに、ビジネス主導の企業には、ディープラーニング モデルをトレーニングするために数十万のデータ ポイントを蓄積する手段がないことがよくあります。大手 AI 企業は、多くの場合、人材の蓄えとデータにおいて比類のない優位性を持っています。その結果、テクノロジー大手はデータと人材を独占するケースが多くなります。

Google は今年初め、機械学習の専門知識や能力を必要とせずに、高品質のカスタマイズされたモデルをトレーニングすることを目的とした AutoML サービスを開始しました。それ以来、テクノロジー大手は、自社のモデルの利益率を犠牲にして、AI の専門家ではない人々に自社のビジネス シナリオ用のモデル生成を支援するサービス ツールを提供するなど、思い切った対策を講じてきました。ただし、Google の AutoML サービスはまだアルファ モードであり、オンラインではドキュメントは提供されていません。

今回、百度は小規模サンプルに基づく画像トレーニングサービスを開始し、データ、モデリング、テスト、展開、オンラインリリースなどの一連のプロセスをウェブサイトに統合しました。ユーザーはマウスをクリックするだけで自分のモデルを入手でき、しかも無料なので非常に良心的です。

トレーニングプロセス

独自のモデルをトレーニングするのは実はとても簡単です。簡単に言うと、わずか 4 つのステップで独自のモデルを取得できます。

1. モデルを作成する: Baidu アカウントにログインし、基本情報を送信して、「モデルの作成」をクリックし、モデル名と使用シナリオを入力して、モデルの作成を開始します。

2. データ セットをアップロードします。形式要件に従って画像を整理し、トレーニング画像圧縮パッケージをアップロードして、トレーニング セットの準備を完了します。

3. トレーニング モデル: データセット内のトレーニング データを選択し、トレーニングを実行します。同じモデルの複数の反復がサポートされています。

4. モデルの検証: トレーニングが完了したら、効果を検証し、検証画像を送信して、モデルの精度を検証できます。

5. モデルのローンチ:「トレーニング完了」後、モデルのローンチを申請できます。即日ローンチされる予定です。ローンチ後、「マイモデル」の「ローンチ詳細」を確認し、独自にカスタマイズされた画像認識APIを取得します。同時に、通常の使用についてはAPIドキュメント(http://ai.baidu.com/docs#/ImageClassify-API/564753d3)を参照してください。

6. 拡張トレーニング: 将来的に認識タイプを拡張する必要がある場合は、「データセット管理」に入り、新しい圧縮パッケージをアップロードし続けるか、単一の分類ラベルに基づいて拡張することができます。

トレーニング結果

全モデルのスクリーンショット

カリフォルニア工科大学101

アドレス: http://www.vision.caltech.edu/Image_Datasets/Caltech101/

101 オブジェクトの識別。精度は95.18%、F1スコアは0.93です。全体的な精度は許容範囲内です。各カテゴリの精度を確認するために、ここで具体的な結果を開きました。

バレル: 精度 100.00% F1 スコア 1.00

アリ: 精度 88.89% F1 スコア 0.89

アンカー: 精度 81.82% F1 スコア 0.72

モデルの一般化能力はまだ不十分であることがわかります。一貫性の高い単純なオブジェクトの場合、認識率は 100% に達します。複雑なアリの形状の場合、精度はわずか 89% です。複雑な形状のアンカーの場合、多くの場合、遮蔽物や付随するオブジェクトがあり、モデルの機能はさらに困難になり、精度は 82% に低下します。このネットワークは、複雑さが不十分であるといういくつかの特徴も示しています。おそらく、より深いネットワークの方がうまくいくでしょう。 F1 が 0.72 に低下し、リコール スコアがより低いレベルに達したことを示していることは注目に値します。つまり、省略による損失が正確な識別による利益よりも大きいシナリオに適用する場合、このモデルは比較的大きな損失を引き起こします。

花(5クラス、4242枚の画像):

データ: https://www.kaggle.com/alxmamaev/flowers-recognition/data精度 91.89% F1スコア 0.92

複雑な画像の場合、特にその数が単一でない場合は、精度が大幅に低下することがわかります。しかし、人間を基準として比較すると、まだ十分に許容できるレベルです。

食べ物(20 クラス x 1000 画像):

データ: https://www.vision.ee.ethz.ch/datasets_extra/food-101/

精度 82.18% F1スコア 0.82

このデータセットは非常に有名であり、挑戦的です。食べ物は花のように決まったスタイルがないので、形や材質も多種多様であり、また食材や場所など不確定な要素も伴います。これは機械にとっては非常に困難です。 ResNet またはその他の非常に深いネットワークを使用した業界最高の結果では、101 のカテゴリとカテゴリあたり 1000 のサンプルで 90% を超える精度が達成されています。

最後に、すべてのモデルのスクリーンショットを紹介します。

要約する

Baidu の画像トレーニング サービスは、いくつかのシナリオでは非常にうまく機能しますが、いくつかのシナリオでは状況に対処できないようです。しかし、これはすでにゼロから1への飛躍であり、AIの専門家ではない人でも独自のモデルをトレーニングする楽しさを体験できるようになります。そして、それは実際にあなた自身のビジネスに役立つために使用することができます。 AIの最前線に立つこの兄弟たちに、心から敬意を表したいと思います。

提案

  1. データのアップロードやトレーニング モデルの進行状況など、トレーニング プロセスの詳細を正確に表示することで、待機時の煩わしさを軽減できます。
  2. 複数のモデルを同時にトレーニングできるようにすることで、顧客は最適なトレーニング データセットを見つけるプロセスを高速化できます。
  3. ユーザーがさまざまなクラス間の結果を観察し理解するのに役立つヒートマップを提供します。
  4. ネットワーク アーキテクチャのオプションを指定することができ、モデル アーキテクチャが異なるとデータ セットに対するパフォーマンスも異なります。
  5. 透明性を高めるために、いくつかの技術文書を提供します。たとえば、学習速度、トレーニング セットと検証セットの比率、早期終了条件、オプティマイザーの選択などです。一部のハイパーパラメータは手動で調整することもでき、おそらくアマチュアの専門家がより良いパラメータセットを提供できるでしょう。

<<:  中国と米国の人工知能の格差はどれほど大きいか:米国の人材総数は中国の約20倍

>>:  李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」

推薦する

...

OpenAIのSora、中国は追いつけないのか?

春節の時期にOpenAIのSoraが大人気でした。私も見てみましたが、正直GPT4が出た時ほどの衝撃...

中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

最近、中山大学は常識に基づいた偏りのない視覚的質問応答データセット (Knowledge-Route...

猿人歩行からAIまで:三次元戦略で一人ひとりに寄り添う「真のセキュリティ」

[[420527]]有名なドイツの社会学者ウルリッヒ・ベックはかつてこう言いました。「近代化の過程...

ディープラーニングと自動テキスト要約が出会うとき

[[198984]]導入近年のテキスト情報の爆発的な増加により、人々はニュース、ブログ、チャット、レ...

ディープラーニング技術に関する珍しいガイド

[[207922]]データ前処理(この部分は原著者が書いたものではなく、個人的な理解と関連内容に基づ...

人間や魚を認識するAIは人魚も認識できるのか? Alibaba CVPR 論文における因果推論法の回答

[[399013]]人間と魚の写真で訓練された AI は、初めて人魚の写真を見たときにどのように反応...

マイクロソフト CEO ナデラ氏へのインタビュー: 人工知能の全体的な方向性と将来はどのようなものでしょうか?

人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...

幼少期から始める:AIを学ぶのに最適な時期は中学生

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

...

AIと5Gが次のイノベーションの波をどう推進するか

[[427625]]今後10年間で、人工知能はあらゆる産業を変えると予想されており、その変化のきっか...

Google が 13GB の 3D スキャン データセットを公開: 17 のカテゴリ、1,030 個の家庭用品

近年、ディープラーニング技術によりコンピュータービジョンやロボット工学の分野で多くの進歩が遂げられて...

...

...

物流業界における人工知能の応用と発展の動向の概要

北京科技大学機械工学部物流工学科羅磊、趙寧人工知能(AI)は、人間の知能をシミュレート、拡張、拡大す...