Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

背景

Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました（https://ai.baidu.com/customize/app/model/）。画像処理におけるディープラーニングが成熟するにつれて、CNN ベースの転移学習が非常に効果的であることが証明されました。ますます多くの従来型ビジネスやインターネットビジネスが、効率性と自動化を向上させるためにビジネスをアップグレードする必要に直面しています。電子商取引の画像検索など、大量の画像をリアルタイムで処理する必要がある状況でも、テキスト検索と同様に、画像を使用して類似商品を検索することが必要になってきています。

ディープラーニングの分野では常に人材が不足しており、従来の企業には独自のディープラーニングモデルをトレーニングする方法がありません。さらに、ビジネス主導の企業には、ディープラーニングモデルをトレーニングするために数十万のデータポイントを蓄積する手段がないことがよくあります。大手 AI 企業は、多くの場合、人材の蓄えとデータにおいて比類のない優位性を持っています。その結果、テクノロジー大手はデータと人材を独占するケースが多くなります。

Google は今年初め、機械学習の専門知識や能力を必要とせずに、高品質のカスタマイズされたモデルをトレーニングすることを目的とした AutoML サービスを開始しました。それ以来、テクノロジー大手は、自社のモデルの利益率を犠牲にして、AI の専門家ではない人々に自社のビジネスシナリオ用のモデル生成を支援するサービスツールを提供するなど、思い切った対策を講じてきました。ただし、Google の AutoML サービスはまだアルファモードであり、オンラインではドキュメントは提供されていません。

今回、百度は小規模サンプルに基づく画像トレーニングサービスを開始し、データ、モデリング、テスト、展開、オンラインリリースなどの一連のプロセスをウェブサイトに統合しました。ユーザーはマウスをクリックするだけで自分のモデルを入手でき、しかも無料なので非常に良心的です。

トレーニングプロセス

独自のモデルをトレーニングするのは実はとても簡単です。簡単に言うと、わずか 4 つのステップで独自のモデルを取得できます。

1. モデルを作成する: Baidu アカウントにログインし、基本情報を送信して、「モデルの作成」をクリックし、モデル名と使用シナリオを入力して、モデルの作成を開始します。

2. データセットをアップロードします。形式要件に従って画像を整理し、トレーニング画像圧縮パッケージをアップロードして、トレーニングセットの準備を完了します。

3. トレーニングモデル: データセット内のトレーニングデータを選択し、トレーニングを実行します。同じモデルの複数の反復がサポートされています。

4. モデルの検証: トレーニングが完了したら、効果を検証し、検証画像を送信して、モデルの精度を検証できます。

5. モデルのローンチ：「トレーニング完了」後、モデルのローンチを申請できます。即日ローンチされる予定です。ローンチ後、「マイモデル」の「ローンチ詳細」を確認し、独自にカスタマイズされた画像認識APIを取得します。同時に、通常の使用についてはAPIドキュメント（http://ai.baidu.com/docs#/ImageClassify-API/564753d3）を参照してください。

6. 拡張トレーニング: 将来的に認識タイプを拡張する必要がある場合は、「データセット管理」に入り、新しい圧縮パッケージをアップロードし続けるか、単一の分類ラベルに基づいて拡張することができます。

トレーニング結果

全モデルのスクリーンショット

カリフォルニア工科大学101

アドレス: http://www.vision.caltech.edu/Image_Datasets/Caltech101/

101 オブジェクトの識別。精度は95.18%、F1スコアは0.93です。全体的な精度は許容範囲内です。各カテゴリの精度を確認するために、ここで具体的な結果を開きました。

バレル: 精度 100.00% F1 スコア 1.00

アリ: 精度 88.89% F1 スコア 0.89

アンカー: 精度 81.82% F1 スコア 0.72

モデルの一般化能力はまだ不十分であることがわかります。一貫性の高い単純なオブジェクトの場合、認識率は 100% に達します。複雑なアリの形状の場合、精度はわずか 89% です。複雑な形状のアンカーの場合、多くの場合、遮蔽物や付随するオブジェクトがあり、モデルの機能はさらに困難になり、精度は 82% に低下します。このネットワークは、複雑さが不十分であるといういくつかの特徴も示しています。おそらく、より深いネットワークの方がうまくいくでしょう。 F1 が 0.72 に低下し、リコールスコアがより低いレベルに達したことを示していることは注目に値します。つまり、省略による損失が正確な識別による利益よりも大きいシナリオに適用する場合、このモデルは比較的大きな損失を引き起こします。

花（5クラス、4242枚の画像）：

データ: https://www.kaggle.com/alxmamaev/flowers-recognition/data精度 91.89% F1スコア 0.92

複雑な画像の場合、特にその数が単一でない場合は、精度が大幅に低下することがわかります。しかし、人間を基準として比較すると、まだ十分に許容できるレベルです。

食べ物（20 クラス x 1000 画像）：

データ: https://www.vision.ee.ethz.ch/datasets_extra/food-101/

精度 82.18% F1スコア 0.82

このデータセットは非常に有名であり、挑戦的です。食べ物は花のように決まったスタイルがないので、形や材質も多種多様であり、また食材や場所など不確定な要素も伴います。これは機械にとっては非常に困難です。 ResNet またはその他の非常に深いネットワークを使用した業界最高の結果では、101 のカテゴリとカテゴリあたり 1000 のサンプルで 90% を超える精度が達成されています。

最後に、すべてのモデルのスクリーンショットを紹介します。

要約する

Baidu の画像トレーニングサービスは、いくつかのシナリオでは非常にうまく機能しますが、いくつかのシナリオでは状況に対処できないようです。しかし、これはすでにゼロから1への飛躍であり、AIの専門家ではない人でも独自のモデルをトレーニングする楽しさを体験できるようになります。そして、それは実際にあなた自身のビジネスに役立つために使用することができます。 AIの最前線に立つこの兄弟たちに、心から敬意を表したいと思います。

提案

データのアップロードやトレーニングモデルの進行状況など、トレーニングプロセスの詳細を正確に表示することで、待機時の煩わしさを軽減できます。
複数のモデルを同時にトレーニングできるようにすることで、顧客は最適なトレーニングデータセットを見つけるプロセスを高速化できます。
ユーザーがさまざまなクラス間の結果を観察し理解するのに役立つヒートマップを提供します。
ネットワークアーキテクチャのオプションを指定することができ、モデルアーキテクチャが異なるとデータセットに対するパフォーマンスも異なります。
透明性を高めるために、いくつかの技術文書を提供します。たとえば、学習速度、トレーニングセットと検証セットの比率、早期終了条件、オプティマイザーの選択などです。一部のハイパーパラメータは手動で調整することもでき、おそらくアマチュアの専門家がより良いパラメータセットを提供できるでしょう。

<<: 中国と米国の人工知能の格差はどれほど大きいか：米国の人材総数は中国の約20倍

>>: 李嘉誠は率直に言った。「人工知能の時代には、これらのいくつかの業界だけが大きな成功を達成するのに役立ちます。」