より良い機械学習にはより良いデータ注釈が必要

より良い機械学習にはより良いデータ注釈が必要

Apple の誰かがラベル付きデータを収集するために数億ドルを費やしましたが、まだ良い結果は得られていません。人々は AI が非常に強力であることを認識しています。しかし、これを実現するには、大量のトレーニングデータを取得する必要があります。

[[441112]]

この需要を見て、多くの専門的なラベリング会社が誕生しました。たとえば、Datasaur は自動データ注釈付けソフトウェアです。もちろん、データのラベル付けは、特に AI プロジェクトの初期段階では手動で開始する必要があります。プロジェクトの途中または終了時には、機械学習自体を使用して、データに自動的にラベルを付けたり、合成データを生成したりすることができます。

Datasaur ソフトウェアの主な目的は、手動によるデータ注釈の操作を簡素化し、最低コストでより高品質のトレーニング データを作成できるようにすることです。一日中データにラベルを付ける必要がある上級ユーザーを対象としているため、ラベル付けプロセスを高速化するためのファンクション キーや、専用のデータ ラベリング システムに適したその他の機能も作成されています。

しかしその過程で、Datasaur は偏見を排除するなど、他のいくつかの目標も掲げていました。また、ラベリングのガイドラインを明確に表現し、ラベリング基準が長期にわたって維持されるようにするためのプロジェクト管理機能も提供されます。

データ注釈の主観的な性質は、この分野が落とし穴に満ちている理由の 1 つです。

たとえば、記事を家族向けかどうか自動的にラベル付けする方法を考えます。通常は、PG、PG13、R などの映画の評価システムを参照できます。当然、これは非常に簡単な作業だと思われるでしょう。そして、テクノロジー企業が適切と考えるものと映画業界が適切と考えるものは非常に異なることが判明しました。グレーゾーンの例も多く、何が適切で何が不適切であるかについては社会の見方によって大きく異なります。

こうした種類の問題を解決するのに近道はありません。ただし、これらのデータ注釈の質問に答えるための意思決定ツリーを提供するなど、企業がこれらのビジネス プロセスを自動化できるようにする方法はあります。そこで、Datasaur ソフトウェアが開発されました。

チームにデザイナー用の Photoshop を作成するように依頼する人はいないでしょう。 Photoshop の既成コピーを購入するだけです。データのラベル付けだけが必要な場合は、このような専門会社を見つけることもできます。

当初、多くの顧客はコンピューター ビジョンが最も注目されている AI テクノロジーだと考えていました。しかし最近では、NLP の使用事例、特に BERT や GPT-3 などの大規模なモデルに依存する使用事例が非常に注目されています。その結果、Datasaur 製品は注目を集めるようになり、毎週 100 万件のデータのラベル付けに使用されるようになりました。Netflix、Zoom、Heroku などの有名企業で使用されています。

Datasaur は、iMerit などの専門的なデータ注釈機関でも使用されています。世界中に 5,000 人の従業員を擁する iMerit は、データ ラベリング業界で強力な存在に成長しました。同社には、多くの有名企業を含む 100 社の顧客がおり、これらの顧客は同社のデータ注釈ネットワークを使用して、高品質のラベル付きデータとディープラーニング モデルを連携させています。

データのラベル付けは主観的な性質を持つため、単純な処理ではありません。

多くの場合、座ってデータがどこにあるのか、何が必要なのかを把握する必要があります。それは単なるツール、人材、プロセス以上のものです。これら3つを組み合わせたものです。

コンテキストは、データ注釈プロセスにとって非常に重要です。これはおそらく、機械が文脈を理解する能力が低いためでしょう。 AI の使用事例が絶えず変化しているためかもしれません。理由が何であれ、その必要性は明らかです。

高品質のトレーニング データを開発するにはコンテキストがいかに重要であるかを示すために、トラックに乗った建設作業員の例を見てみましょう。トラックに座っている作業員を想像してください。作業員はメンテナンスセクションに到着するたびに、トラックから降りて作業をし、その後再びトラックに乗らなければなりません。したがって、データのラベル付けに関する質問は次のようになります。作業員は歩行者ですか? トラックの一部ですか? それとも別の人ですか?

車両を数える場合、作業員が車両に乗り降りするかどうかは考慮しません。関心があるのは建設車両だけですが、ゴミ収集車にぶつからないように他の何か(自動運転や交通流制御など)を操作しようとしている場合は、ゴミ収集車の動きが大きな関心事になります。疑わしい行動を探している場合は、同様の行動のリストからゴミ収集車を除外する必要があります。

しかし、AI が適用される視点に応じて、労働者の状態が異なることは明らかです。データのラベル付けについては、データが異なる時期に異なるラベルを持つ可能性があるという事実を証明します。時には、答えが一つだけではないこともあります。

データ注釈付けプロセスの綿密さはデータ品質の向上に非常に重要であり、機械学習モデルの予測推論品質に直接影響します。データにより予測精度が 60% ~ 70% に達することもあれば、95% に達することもあります。

使用ケースによっては、精度が重要になります。ビデオで万引きを検出するモデルを構築する場合、偽陰性(盗難に気付く)と偽陽性(無実の顧客を非難する)の間には大きな違いがあります。

<<:  AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

>>:  人工知能は教育にどのような変化をもたらすのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

世界の技術大国の人工知能+インテリジェント製造戦略の展開を振り返る

1. アメリカ合衆国2016 年 10 月、米国政府は「人工知能の未来への準備」と「国家人工知能研究...

春の耕作が進むにつれ、農業ロボットが近代的な農業システムの形成に貢献している

春の耕作シーズンとなり、全国各地で春耕作が行われています。農業農村部の最新データによると、国内の春穀...

OpenAIの共同創設者Karpathyがアルパカに恋をする: 赤ちゃんLlama2を実装する純粋なCコード、MacBookが動作可能、1.6kの星を獲得

今週、Meta のオープンソース Llama2 が AI コミュニティ全体で人気を博しました。その結...

睡眠研究はより優れた AI モデルの作成に役立ちますか?

私たちはなぜ眠るのでしょうか? 明らかな理由の一つは、体と手足の力を回復することです。しかし、睡眠の...

Amazon Translateについて

Amazon Translate は、高速、高品質、手頃な価格の言語翻訳を提供するニューラル機械翻訳...

自動運転の研究の方向性は間違っているのか?

1 知覚ソリューション: 純粋な視覚とマルチセンサー融合自動車が自動運転を実現するには、まず周囲を...

...

Keras を使用して、30 行未満のコードで最初のニューラル ネットワークを記述します。

[51CTO.com クイック翻訳] 私が初めて AI に触れたときのことを振り返ると、いくつかの...

2024 年のテクノロジー トレンド - 企業は今から準備を始める必要があります。

2023 年の主流のテクノロジートレンドが人工知能、より具体的には生成 AI に重点を置くことは間...

将来展望: 2024 年の人工知能

生成型人工知能 (GenAI) ツールから AIOps の採用まで、AI の未来がどうなるかをご紹介...

5G、AI、クラウドコンピューティング…東京五輪の裏側にある「ブラックテクノロジー」を徹底検証

8月8日夜、第32回夏季オリンピック競技大会(以下、東京オリンピック)が閉幕した。選手たちの俊敏な姿...

DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を探索し、新たな課題をもたらしている。

AIがさまざまな科学分野と融合するにつれ、可能性と課題に満ちた技術革命が起こっています。 AI は...

2019 年の AI、セキュリティ、IT 運用、IoT に関する主な予測

次の技術変化が始まる前に、将来の発展の方向を予測・判断し、技術変化に伴う可能性のある困難を軽減する必...