消費財の画像認識:無人店舗を支える商品認識技術

消費財の画像認識:無人店舗を支える商品認識技術

[[208848]]

人工知能は世界を席巻しており、AIの重要な分野の1つであるコンピュータービジョンも雨後の筍のように出現し、新しいアイデアやアプリケーションが絶えず登場しています。顔認識は徐々に私たちの日常生活に浸透してきました。機械が顔を認識できることは誰もが聞いたことがあると思います。コンピュータービジョンのもう1つの用途は、製品認識です。

現在、新たに出現した無人小売店の中には、機械による自動商品識別を必要とするところもあります。商品認識技術は、フォトショッピングや AR インタラクティブ マーケティングなどのシナリオでも使用されています。人工知能ビジネス企業であるImageDTは、商品画像認識技術を活用し、インターネット画像ビッグデータに基づくビジネス分析や店舗棚認識に基づくチャネルデータ分析などの2Bビジネスサービスを提供し、消費財企業の業績向上を支援しています。本日、Tujiang は無人店舗やニューリテールで使用されている商品認識技術についてご紹介します。

データロジック

1. スーパーマーケットにあるすべての商品を子供に「覚えさせる」

子供に「リンゴ」などの物体を認識するように教えるときは、まず「リンゴ」を繰り返し見せて、「リンゴ」を認識できるようにします。子供が「リンゴ」と「梨」を間違えることもありますが、その場合はそれを指摘できるように手助けする必要があります。子どもが「リンゴ」をたくさん見れば見るほど、リンゴを認識する能力は強くなります。

[[208849]]

ディープ ニューラル ネットワークに基づく人工知能は、機械に理解力を与えます。基本的なプロセスは、子供にリンゴの認識を教えるようなものです。まず、「リンゴ」の写真などの大量のデータが必要です。同時に、「ナシ」の写真など、機械が誤認する「ネガティブサンプル」を大量に追加する必要があります。その後、ディープニューラルネットワークを通じて繰り返し学習することで、最終的に効果的な認識モデルを取得できます。売れ筋の消費財を識別するには、ボトルのパッケージを認識するだけでなく、それがヨーグルトのボトルなのかビールのボトルなのかを認識する必要があります。また、ヨーグルトを認識するだけでなく、ヨーグルトのブランド、さらには味や仕様も認識する必要があります。動きの速い消費財の SKU を何千も機械で正確に識別できるようにするのは、非常に大規模で複雑な AI プロジェクトです。

データ収集

2. 機械に学習のための原材料を提供する

まず、対象商品のリストを整理し、各商品の画像データを取得する必要があります。製品の機能の認識度に応じて、通常は数十から数百の有効な画像が必要になります。データ収集は、さまざまな手段の組み合わせです。電子商取引プラットフォームには、構造化された商品紹介画像と購入者が投稿した大量の画像があり、ソーシャルプラットフォームでも大量の消費者画像を取得できます。これらは最も費用対効果の高いデータソースです。スーパーマーケットの実際の棚データは最も信頼性の高いデータソースですが、取得と後処理のコストが比較的高くなります。さらに、ImageDT はスマート ライト ボックスとスマート収集車両を独自に開発し、さまざまなシナリオをシミュレートして製品の 360° 写真を撮影し、豊富なトレーニング データを取得するための巨大なトレーニング データベースを確立しました。

データ注釈

3. どの程度のインテリジェンスが得られるかは、どの程度の手作業が行われるかによって決まります。収集された生の画像データには、通常、クリーンアップする必要がある多くの「ダーティ データ」が混在しており、ほとんどの場合、画像内のオブジェクトにもラベルを付けて分類する必要があります。信頼できるデータだけが高品質の認識モデルを生み出すことができます。どの人工知能企業にも、データラベリングチームという特別な部隊が存在します。 ImageDT も例外ではありません。このチームをサポートするのは、ハイテクを駆使したラベリング システムです。

たとえば、注釈を付ける前は通常、弱いモデルで画像を処理し、機械がまず問題の 50% を解決できるようにします。システムにはバッチ注釈をサポートする小さな画像モードがあり、注釈者は一目で 10 行を読むことができるため、注釈の速度が飛躍的に向上します。製品マネージャーは各機能を繰り返し磨き上げ、A/B テストを実行し、細部にわたって注釈のエクスペリエンスと効率を向上させます。さらに、ラベリング チームは、機械学習のための最も正確で信頼性の高いトレーニング データを確保するために、サンプリング レビュー、完全レビュー、相互検証、埋め込みポイント検証など、さまざまなタスクに対してさまざまなレベルの品質保証メカニズムを構成しています。

モデルトレーニング

4. 「学習は決して止まらない」、機械も学習し続ける必要がある

データが準備されたら、次のステップは機械に学習させて認識モデルを構築することです。同じデータの場合、異なるニューラル ネットワーク アルゴリズムと異なるパラメーター設定を選択すると、最終モデルの効果に影響します。モデルが確立された後も、モデルを管理する必要はあります。モデル間には階層関係があり、データとモデルのバージョンの反復も発生します。これらの問題は、多数の製品カテゴリに遭遇すると非常に困難になります。 ImageDT には、ドラッグ アンド ドロップ アルゴリズムとパラメータ テストをサポートするセルフサービス ディープラーニング プラットフォームがあります。プログラマーでなくても、モデリング タスクを確実な方法で完了し、モデルの有効性評価レポートを取得できます。 ImageDT の新入社員は、エンジニアでも受付係でも、30 分のモデリング トレーニングを受けます。トレーニング後は、全員が独自に画像認識モデルを構築できるようになり、プロセス全体にかかる時間はわずか 30 分です。

[[208852]]

同時に、ディープラーニング プラットフォームは、オブジェクト、データ、モデルの管理を考慮したモデル ウェアハウスのようなものです。モデリングプロセス全体が標準化されており、データ収集、ラベリング、モデリングからオンライン起動までの全プロセスをわずか 1 日で完了できます。 ImageDT の R&D チームは、製品グループ、モデリング グループ、データ グループ、研究グループの 4 つのグループに分かれています。最初の 3 つのグループは、組立ラインの構築と運用を担当し、毎日大量の新しい製品認識モデルを秩序正しく確立し、迅速にオンライン化して、毎日数千万枚の画像データを識別および分析できるようにします。研究チームは、しわになりやすいフレキシブル包装、製品の側面や背面の識別、遮蔽物や反射のある環境での識別など、さまざまな困難な問題を克服する必要がありました。

現在、実際の生産環境では認識精度が95%以上に達しています。人間の顔は目や鼻、口など、特徴が決まっていますが、スーパーマーケットに並ぶ多種多様な商品は、どれも多種多様です。顔認識と比較すると、製品認識はエンジニアリングの複雑さが高くなります。 ImageDT が行っているのは、この巨大な AI プロジェクトを実現し、機械が各製品を自動的かつ正確に識別できるようにすることです。小売業向けスマートシェルフのデモ

<<:  李開復氏:将来、人間の仕事の半分はAIに奪われるが、失業しない分野は2つだけ

>>:  医師は依然として自分の経験をより信頼しています。病院はビッグデータの収集と機械学習の過負荷の問題をどのように解決するのでしょうか?

ブログ    
ブログ    

推薦する

...

人工知能の「最初の一滴」がエンタープライズIT自動化に属する理由

企業の情報技術の意思決定者として、上級管理職や部門長に AI のビジネス価値を示す必要がある場合、I...

あなたが知らないかもしれないゲームにおける AI に関する 5 つの予測

コンピュータービジョン技術の急速な発展に伴い、機械学習はビデオゲーム業界、特に仮想現実の分野で広く使...

日本はAIと無人機械を使って月面基地を建設する計画で、2030年代までに完成することを目指している。

共同通信によると、国土交通省は月面に滞在できる基地を建設するため、無人重機の開発を進めている。日本は...

ソゴウ・チャン・ボー:インテリジェントな運用とメンテナンスは代替ではなくアップグレードです

[51CTO.com オリジナル記事] 「初夏、あなたはついに貴重な年次休暇を楽しむ機会を得ました。...

今年の2つのホットスポット、5Gと人工知能に冷水を浴びせる

[[256172]]最近、ファーウェイ創業者の任正非氏の1万2000語を超えるインタビュー記録がイン...

携帯電話を使ってドライバーを監視:ドライバーレコーダーもAI技術を活用し始めている

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画

IT Homeは2月27日、2024年のモバイル・ワールド・コングレスでマイクロソフトのブラッド・ス...

...

人工知能における非構造化データの役割

人工知能 (AI) システムは人間に似た方法でやり取りするため、一部の人は不安に思うかもしれませんが...

...

致命的な幻覚問題、GPU 代替品の開発、大規模モデルが直面するその他の 10 の課題

ChatGPT、GPT-4などのリリースにより、大規模モデル(LLM)の魅力が明らかになった一方で、...

約100機のドローンが「爆発」し、重慶の建物に墜落した!プログラムエラー、ホストクラッシュ

ドローンが墜落することは珍しくありませんが、数十機、あるいは数百機ものドローンが同時に墜落したらどう...

ヒット曲予測の成功率は97%?このリストは「偽造品と戦う」ためにあります

トレンドや動向を予測することは、あらゆる業界が熱心に取り組んでいることです。これにより、実務者は業界...

2023 年までにデータセンターで注目される AI と ML の 10 大アプリケーション

人工知能 (AI) と機械学習 (ML) は、データセンター分野の重要なテクノロジーとなっています。...