Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

背景

Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました(https://ai.baidu.com/customize/app/model/)。画像処理におけるディープラーニングが成熟するにつれて、CNN ベースの転移学習が非常に効果的であることが証明されました。ますます多くの従来型ビジネスやインターネット ビジネスが、効率性と自動化を向上させるためにビジネスをアップグレードする必要に直面しています。電子商取引の画像検索など、大量の画像をリアルタイムで処理する必要がある状況でも、テキスト検索と同様に、画像を使用して類似商品を検索することが必要になってきています。

ディープラーニングの分野では常に人材が不足しており、従来の企業には独自のディープラーニングモデルをトレーニングする方法がありません。さらに、ビジネス主導の企業には、ディープラーニング モデルをトレーニングするために数十万のデータ ポイントを蓄積する手段がないことがよくあります。大手 AI 企業は、多くの場合、人材の蓄えとデータにおいて比類のない優位性を持っています。その結果、テクノロジー大手はデータと人材を独占するケースが多くなります。

Google は今年初め、機械学習の専門知識や能力を必要とせずに、高品質のカスタマイズされたモデルをトレーニングすることを目的とした AutoML サービスを開始しました。それ以来、テクノロジー大手は、自社のモデルの利益率を犠牲にして、AI の専門家ではない人々に自社のビジネス シナリオ用のモデル生成を支援するサービス ツールを提供するなど、思い切った対策を講じてきました。ただし、Google の AutoML サービスはまだアルファ モードであり、オンラインではドキュメントは提供されていません。

今回、百度は小規模サンプルに基づく画像トレーニングサービスを開始し、データ、モデリング、テスト、展開、オンラインリリースなどの一連のプロセスをウェブサイトに統合しました。ユーザーはマウスをクリックするだけで自分のモデルを入手でき、しかも無料なので非常に良心的です。

トレーニングプロセス

独自のモデルをトレーニングするのは実はとても簡単です。簡単に言うと、わずか 4 つのステップで独自のモデルを取得できます。

1. モデルを作成する: Baidu アカウントにログインし、基本情報を送信して、「モデルの作成」をクリックし、モデル名と使用シナリオを入力して、モデルの作成を開始します。

2. データ セットをアップロードします。形式要件に従って画像を整理し、トレーニング画像圧縮パッケージをアップロードして、トレーニング セットの準備を完了します。

3. トレーニング モデル: データセット内のトレーニング データを選択し、トレーニングを実行します。同じモデルの複数の反復がサポートされています。

4. モデルの検証: トレーニングが完了したら、効果を検証し、検証画像を送信して、モデルの精度を検証できます。

5. モデルのローンチ:「トレーニング完了」後、モデルのローンチを申請できます。即日ローンチされる予定です。ローンチ後、「マイモデル」の「ローンチ詳細」を確認し、独自にカスタマイズされた画像認識APIを取得します。同時に、通常の使用についてはAPIドキュメント(http://ai.baidu.com/docs#/ImageClassify-API/564753d3)を参照してください。

6. 拡張トレーニング: 将来的に認識タイプを拡張する必要がある場合は、「データセット管理」に入り、新しい圧縮パッケージをアップロードし続けるか、単一の分類ラベルに基づいて拡張することができます。

トレーニング結果

全モデルのスクリーンショット

カリフォルニア工科大学101

アドレス: http://www.vision.caltech.edu/Image_Datasets/Caltech101/

101 オブジェクトの識別。精度は95.18%、F1スコアは0.93です。全体的な精度は許容範囲内です。各カテゴリの精度を確認するために、ここで具体的な結果を開きました。

バレル: 精度 100.00% F1 スコア 1.00

アリ: 精度 88.89% F1 スコア 0.89

アンカー: 精度 81.82% F1 スコア 0.72

モデルの一般化能力はまだ不十分であることがわかります。一貫性の高い単純なオブジェクトの場合、認識率は 100% に達します。複雑なアリの形状の場合、精度はわずか 89% です。複雑な形状のアンカーの場合、多くの場合、遮蔽物や付随するオブジェクトがあり、モデルの機能はさらに困難になり、精度は 82% に低下します。このネットワークは、複雑さが不十分であるといういくつかの特徴も示しています。おそらく、より深いネットワークの方がうまくいくでしょう。 F1 が 0.72 に低下し、リコール スコアがより低いレベルに達したことを示していることは注目に値します。つまり、省略による損失が正確な識別による利益よりも大きいシナリオに適用する場合、このモデルは比較的大きな損失を引き起こします。

花(5クラス、4242枚の画像):

データ: https://www.kaggle.com/alxmamaev/flowers-recognition/data精度 91.89% F1スコア 0.92

複雑な画像の場合、特にその数が単一でない場合は、精度が大幅に低下することがわかります。しかし、人間を基準として比較すると、まだ十分に許容できるレベルです。

食べ物(20 クラス x 1000 画像):

データ: https://www.vision.ee.ethz.ch/datasets_extra/food-101/

精度 82.18% F1スコア 0.82

このデータセットは非常に有名であり、挑戦的です。食べ物は花のように決まったスタイルがないので、形や材質も多種多様であり、また食材や場所など不確定な要素も伴います。これは機械にとっては非常に困難です。 ResNet またはその他の非常に深いネットワークを使用した業界最高の結果では、101 のカテゴリとカテゴリあたり 1000 のサンプルで 90% を超える精度が達成されています。

最後に、すべてのモデルのスクリーンショットを紹介します。

要約する

Baidu の画像トレーニング サービスは、いくつかのシナリオでは非常にうまく機能しますが、いくつかのシナリオでは状況に対処できないようです。しかし、これはすでにゼロから1への飛躍であり、AIの専門家ではない人でも独自のモデルをトレーニングする楽しさを体験できるようになります。そして、それは実際にあなた自身のビジネスに役立つために使用することができます。 AIの最前線に立つこの兄弟たちに、心から敬意を表したいと思います。

提案

  1. データのアップロードやトレーニング モデルの進行状況など、トレーニング プロセスの詳細を正確に表示することで、待機時の煩わしさを軽減できます。
  2. 複数のモデルを同時にトレーニングできるようにすることで、顧客は最適なトレーニング データセットを見つけるプロセスを高速化できます。
  3. ユーザーがさまざまなクラス間の結果を観察し理解するのに役立つヒートマップを提供します。
  4. ネットワーク アーキテクチャのオプションを指定することができ、モデル アーキテクチャが異なるとデータ セットに対するパフォーマンスも異なります。
  5. 透明性を高めるために、いくつかの技術文書を提供します。たとえば、学習速度、トレーニング セットと検証セットの比率、早期終了条件、オプティマイザーの選択などです。一部のハイパーパラメータは手動で調整することもでき、おそらくアマチュアの専門家がより良いパラメータセットを提供できるでしょう。

<<:  中国と米国の人工知能の格差はどれほど大きいか:米国の人材総数は中国の約20倍

>>:  李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」

ブログ    
ブログ    

推薦する

MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。

7月13日、 MITの研究者らは、医薬品開発の加速と遺伝子治療の改善を目的として、生成型人工知能を...

時間はお金だというのは本当です!この日本人男性は9日間で5千円を費やして「タイムマシン」を作ったが、1分巻き戻すのにかかる費用はたった1円だ。

子どもたちが小学生の頃、時間を大切にすることを教えるために、大人たちは「時間はお金であり、お金で時間...

...

...

医療機器製造における3つの大きなトレンド

医療製造にロボット工学と自動化を導入したダヴィンチ ロボット手術システムが発売されてから 20 年が...

...

...

...

...

MIT は Google と提携して 7 台のマルチタスク ロボットをトレーニングし、9,600 のタスクで 89% の成功率を達成しました。

タスクの数が増えるにつれて、現在の計算方法を使用して汎用の日常的なロボットを構築するコストは法外なも...

視覚慣性走行距離計のIMU事前統合モデルについてお話しましょう

エンジニアリングの実践では、単に視覚オドメトリ (VO) を使用するのではなく、視覚と IMU を組...

...

時系列を大規模モデルと組み合わせることはできますか?アマゾンの最新研究:大規模モデルで時系列予測を説明できる

最近、Amazon は時系列予測にビッグモデルを使用する方法に関する論文を発表しました。これは時系列...

AIビデオ監視の普及における3つの大きな課題

近年、セキュリティビデオ監視はソフトウェアとハ​​ードウェアの両方で大きな技術的進歩を遂げており、さ...

2019 年に学ぶべき 10 個の機械学習 API

最近では、携帯電話の写真からメールの受信トレイのフィルターまで、機械学習はあらゆるところに存在してい...