Apple の誰かがラベル付きデータを収集するために数億ドルを費やしましたが、まだ良い結果は得られていません。人々は AI が非常に強力であることを認識しています。しかし、これを実現するには、大量のトレーニングデータを取得する必要があります。
この需要を見て、多くの専門的なラベリング会社が誕生しました。たとえば、Datasaur は自動データ注釈付けソフトウェアです。もちろん、データのラベル付けは、特に AI プロジェクトの初期段階では手動で開始する必要があります。プロジェクトの途中または終了時には、機械学習自体を使用して、データに自動的にラベルを付けたり、合成データを生成したりすることができます。 Datasaur ソフトウェアの主な目的は、手動によるデータ注釈の操作を簡素化し、最低コストでより高品質のトレーニング データを作成できるようにすることです。一日中データにラベルを付ける必要がある上級ユーザーを対象としているため、ラベル付けプロセスを高速化するためのファンクション キーや、専用のデータ ラベリング システムに適したその他の機能も作成されています。 しかしその過程で、Datasaur は偏見を排除するなど、他のいくつかの目標も掲げていました。また、ラベリングのガイドラインを明確に表現し、ラベリング基準が長期にわたって維持されるようにするためのプロジェクト管理機能も提供されます。 データ注釈の主観的な性質は、この分野が落とし穴に満ちている理由の 1 つです。 たとえば、記事を家族向けかどうか自動的にラベル付けする方法を考えます。通常は、PG、PG13、R などの映画の評価システムを参照できます。当然、これは非常に簡単な作業だと思われるでしょう。そして、テクノロジー企業が適切と考えるものと映画業界が適切と考えるものは非常に異なることが判明しました。グレーゾーンの例も多く、何が適切で何が不適切であるかについては社会の見方によって大きく異なります。 こうした種類の問題を解決するのに近道はありません。ただし、これらのデータ注釈の質問に答えるための意思決定ツリーを提供するなど、企業がこれらのビジネス プロセスを自動化できるようにする方法はあります。そこで、Datasaur ソフトウェアが開発されました。 チームにデザイナー用の Photoshop を作成するように依頼する人はいないでしょう。 Photoshop の既成コピーを購入するだけです。データのラベル付けだけが必要な場合は、このような専門会社を見つけることもできます。 当初、多くの顧客はコンピューター ビジョンが最も注目されている AI テクノロジーだと考えていました。しかし最近では、NLP の使用事例、特に BERT や GPT-3 などの大規模なモデルに依存する使用事例が非常に注目されています。その結果、Datasaur 製品は注目を集めるようになり、毎週 100 万件のデータのラベル付けに使用されるようになりました。Netflix、Zoom、Heroku などの有名企業で使用されています。 Datasaur は、iMerit などの専門的なデータ注釈機関でも使用されています。世界中に 5,000 人の従業員を擁する iMerit は、データ ラベリング業界で強力な存在に成長しました。同社には、多くの有名企業を含む 100 社の顧客がおり、これらの顧客は同社のデータ注釈ネットワークを使用して、高品質のラベル付きデータとディープラーニング モデルを連携させています。 データのラベル付けは主観的な性質を持つため、単純な処理ではありません。 多くの場合、座ってデータがどこにあるのか、何が必要なのかを把握する必要があります。それは単なるツール、人材、プロセス以上のものです。これら3つを組み合わせたものです。 コンテキストは、データ注釈プロセスにとって非常に重要です。これはおそらく、機械が文脈を理解する能力が低いためでしょう。 AI の使用事例が絶えず変化しているためかもしれません。理由が何であれ、その必要性は明らかです。 高品質のトレーニング データを開発するにはコンテキストがいかに重要であるかを示すために、トラックに乗った建設作業員の例を見てみましょう。トラックに座っている作業員を想像してください。作業員はメンテナンスセクションに到着するたびに、トラックから降りて作業をし、その後再びトラックに乗らなければなりません。したがって、データのラベル付けに関する質問は次のようになります。作業員は歩行者ですか? トラックの一部ですか? それとも別の人ですか? 車両を数える場合、作業員が車両に乗り降りするかどうかは考慮しません。関心があるのは建設車両だけですが、ゴミ収集車にぶつからないように他の何か(自動運転や交通流制御など)を操作しようとしている場合は、ゴミ収集車の動きが大きな関心事になります。疑わしい行動を探している場合は、同様の行動のリストからゴミ収集車を除外する必要があります。 しかし、AI が適用される視点に応じて、労働者の状態が異なることは明らかです。データのラベル付けについては、データが異なる時期に異なるラベルを持つ可能性があるという事実を証明します。時には、答えが一つだけではないこともあります。 データ注釈付けプロセスの綿密さはデータ品質の向上に非常に重要であり、機械学習モデルの予測推論品質に直接影響します。データにより予測精度が 60% ~ 70% に達することもあれば、95% に達することもあります。 使用ケースによっては、精度が重要になります。ビデオで万引きを検出するモデルを構築する場合、偽陰性(盗難に気付く)と偽陽性(無実の顧客を非難する)の間には大きな違いがあります。 |
<<: AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?
>>: 人工知能は教育にどのような変化をもたらすのでしょうか?
近年、AI テクノロジーに投資している企業の大多数は、一般的に、AI アプリケーションを業務改善やコ...
人工知能の発展により、機械ははるかに賢くなりました。コンピュータプログラムさえ設定しておけば、多くの...
2021 年 12 月 21 日に arXiv にアップロードされた自動運転のための説明可能な AI...
近年、原子力技術と人工知能(AI)の融合により、原子力AIと呼ばれる強力な相乗効果が生み出されていま...
背景Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました(https:/...
Facebook、プリンストン大学、MITのAI研究者らは最近、ディープラーニングが実際にどのよう...
インテリジェントロボットは、知覚、思考、効果の面で人間を完全にシミュレートする機械システムです。近年...
9月28日、市場調査会社オールリサーチが発表したレポートでは、2027年までに人工知能ガバナンス市場...
現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...
AI技術はここ数年で進歩しており、データセンターを含む多くの業界で導入されています。たとえば、Goo...