消費財の画像認識：無人店舗を支える商品認識技術

[[208848]]

人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョンも雨後の筍のように出現し、新しいアイデアやアプリケーションが絶えず登場しています。顔認識は徐々に私たちの日常生活に浸透してきました。機械が顔を認識できることは誰もが聞いたことがあると思います。コンピュータービジョンのもう1つの用途は、製品認識です。

現在、新たに出現した無人小売店の中には、機械による自動商品識別を必要とするところもあります。商品認識技術は、フォトショッピングや AR インタラクティブマーケティングなどのシナリオでも使用されています。人工知能ビジネス企業であるImageDTは、商品画像認識技術を活用し、インターネット画像ビッグデータに基づくビジネス分析や店舗棚認識に基づくチャネルデータ分析などの2Bビジネスサービスを提供し、消費財企業の業績向上を支援しています。本日、Tujiang は無人店舗やニューリテールで使用されている商品認識技術についてご紹介します。

データロジック

1. スーパーマーケットにあるすべての商品を子供に「覚えさせる」

子供に「リンゴ」などの物体を認識するように教えるときは、まず「リンゴ」を繰り返し見せて、「リンゴ」を認識できるようにします。子供が「リンゴ」と「梨」を間違えることもありますが、その場合はそれを指摘できるように手助けする必要があります。子どもが「リンゴ」をたくさん見れば見るほど、リンゴを認識する能力は強くなります。

[[208849]]

ディープニューラルネットワークに基づく人工知能は、機械に理解力を与えます。基本的なプロセスは、子供にリンゴの認識を教えるようなものです。まず、「リンゴ」の写真などの大量のデータが必要です。同時に、「ナシ」の写真など、機械が誤認する「ネガティブサンプル」を大量に追加する必要があります。その後、ディープニューラルネットワークを通じて繰り返し学習することで、最終的に効果的な認識モデルを取得できます。売れ筋の消費財を識別するには、ボトルのパッケージを認識するだけでなく、それがヨーグルトのボトルなのかビールのボトルなのかを認識する必要があります。また、ヨーグルトを認識するだけでなく、ヨーグルトのブランド、さらには味や仕様も認識する必要があります。動きの速い消費財の SKU を何千も機械で正確に識別できるようにするのは、非常に大規模で複雑な AI プロジェクトです。

データ収集

2. 機械に学習のための原材料を提供する

まず、対象商品のリストを整理し、各商品の画像データを取得する必要があります。製品の機能の認識度に応じて、通常は数十から数百の有効な画像が必要になります。データ収集は、さまざまな手段の組み合わせです。電子商取引プラットフォームには、構造化された商品紹介画像と購入者が投稿した大量の画像があり、ソーシャルプラットフォームでも大量の消費者画像を取得できます。これらは最も費用対効果の高いデータソースです。スーパーマーケットの実際の棚データは最も信頼性の高いデータソースですが、取得と後処理のコストが比較的高くなります。さらに、ImageDT はスマートライトボックスとスマート収集車両を独自に開発し、さまざまなシナリオをシミュレートして製品の 360° 写真を撮影し、豊富なトレーニングデータを取得するための巨大なトレーニングデータベースを確立しました。

データ注釈

3. どの程度のインテリジェンスが得られるかは、どの程度の手作業が行われるかによって決まります。収集された生の画像データには、通常、クリーンアップする必要がある多くの「ダーティデータ」が混在しており、ほとんどの場合、画像内のオブジェクトにもラベルを付けて分類する必要があります。信頼できるデータだけが高品質の認識モデルを生み出すことができます。どの人工知能企業にも、データラベリングチームという特別な部隊が存在します。 ImageDT も例外ではありません。このチームをサポートするのは、ハイテクを駆使したラベリングシステムです。

たとえば、注釈を付ける前は通常、弱いモデルで画像を処理し、機械がまず問題の 50% を解決できるようにします。システムにはバッチ注釈をサポートする小さな画像モードがあり、注釈者は一目で 10 行を読むことができるため、注釈の速度が飛躍的に向上します。製品マネージャーは各機能を繰り返し磨き上げ、A/B テストを実行し、細部にわたって注釈のエクスペリエンスと効率を向上させます。さらに、ラベリングチームは、機械学習のための最も正確で信頼性の高いトレーニングデータを確保するために、サンプリングレビュー、完全レビュー、相互検証、埋め込みポイント検証など、さまざまなタスクに対してさまざまなレベルの品質保証メカニズムを構成しています。

モデルトレーニング

4. 「学習は決して止まらない」、機械も学習し続ける必要がある

データが準備されたら、次のステップは機械に学習させて認識モデルを構築することです。同じデータの場合、異なるニューラルネットワークアルゴリズムと異なるパラメーター設定を選択すると、最終モデルの効果に影響します。モデルが確立された後も、モデルを管理する必要はあります。モデル間には階層関係があり、データとモデルのバージョンの反復も発生します。これらの問題は、多数の製品カテゴリに遭遇すると非常に困難になります。 ImageDT には、ドラッグアンドドロップアルゴリズムとパラメータテストをサポートするセルフサービスディープラーニングプラットフォームがあります。プログラマーでなくても、モデリングタスクを確実な方法で完了し、モデルの有効性評価レポートを取得できます。 ImageDT の新入社員は、エンジニアでも受付係でも、30 分のモデリングトレーニングを受けます。トレーニング後は、全員が独自に画像認識モデルを構築できるようになり、プロセス全体にかかる時間はわずか 30 分です。

[[208852]]

同時に、ディープラーニングプラットフォームは、オブジェクト、データ、モデルの管理を考慮したモデルウェアハウスのようなものです。モデリングプロセス全体が標準化されており、データ収集、ラベリング、モデリングからオンライン起動までの全プロセスをわずか 1 日で完了できます。 ImageDT の R&D チームは、製品グループ、モデリンググループ、データグループ、研究グループの 4 つのグループに分かれています。最初の 3 つのグループは、組立ラインの構築と運用を担当し、毎日大量の新しい製品認識モデルを秩序正しく確立し、迅速にオンライン化して、毎日数千万枚の画像データを識別および分析できるようにします。研究チームは、しわになりやすいフレキシブル包装、製品の側面や背面の識別、遮蔽物や反射のある環境での識別など、さまざまな困難な問題を克服する必要がありました。

現在、実際の生産環境では認識精度が95％以上に達しています。人間の顔は目や鼻、口など、特徴が決まっていますが、スーパーマーケットに並ぶ多種多様な商品は、どれも多種多様です。顔認識と比較すると、製品認識はエンジニアリングの複雑さが高くなります。 ImageDT が行っているのは、この巨大な AI プロジェクトを実現し、機械が各製品を自動的かつ正確に識別できるようにすることです。小売業向けスマートシェルフのデモ

<<: 李開復氏：将来、人間の仕事の半分はAIに奪われるが、失業しない分野は2つだけ

>>: 医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?