より良い機械学習にはより良いデータ注釈が必要

Apple の誰かがラベル付きデータを収集するために数億ドルを費やしましたが、まだ良い結果は得られていません。人々は AI が非常に強力であることを認識しています。しかし、これを実現するには、大量のトレーニングデータを取得する必要があります。

[[441112]]

この需要を見て、多くの専門的なラベリング会社が誕生しました。たとえば、Datasaur は自動データ注釈付けソフトウェアです。もちろん、データのラベル付けは、特に AI プロジェクトの初期段階では手動で開始する必要があります。プロジェクトの途中または終了時には、機械学習自体を使用して、データに自動的にラベルを付けたり、合成データを生成したりすることができます。

Datasaur ソフトウェアの主な目的は、手動によるデータ注釈の操作を簡素化し、最低コストでより高品質のトレーニングデータを作成できるようにすることです。一日中データにラベルを付ける必要がある上級ユーザーを対象としているため、ラベル付けプロセスを高速化するためのファンクションキーや、専用のデータラベリングシステムに適したその他の機能も作成されています。

しかしその過程で、Datasaur は偏見を排除するなど、他のいくつかの目標も掲げていました。また、ラベリングのガイドラインを明確に表現し、ラベリング基準が長期にわたって維持されるようにするためのプロジェクト管理機能も提供されます。

データ注釈の主観的な性質は、この分野が落とし穴に満ちている理由の 1 つです。

たとえば、記事を家族向けかどうか自動的にラベル付けする方法を考えます。通常は、PG、PG13、R などの映画の評価システムを参照できます。当然、これは非常に簡単な作業だと思われるでしょう。そして、テクノロジー企業が適切と考えるものと映画業界が適切と考えるものは非常に異なることが判明しました。グレーゾーンの例も多く、何が適切で何が不適切であるかについては社会の見方によって大きく異なります。

こうした種類の問題を解決するのに近道はありません。ただし、これらのデータ注釈の質問に答えるための意思決定ツリーを提供するなど、企業がこれらのビジネスプロセスを自動化できるようにする方法はあります。そこで、Datasaur ソフトウェアが開発されました。

チームにデザイナー用の Photoshop を作成するように依頼する人はいないでしょう。 Photoshop の既成コピーを購入するだけです。データのラベル付けだけが必要な場合は、このような専門会社を見つけることもできます。

当初、多くの顧客はコンピュータービジョンが最も注目されている AI テクノロジーだと考えていました。しかし最近では、NLP の使用事例、特に BERT や GPT-3 などの大規模なモデルに依存する使用事例が非常に注目されています。その結果、Datasaur 製品は注目を集めるようになり、毎週 100 万件のデータのラベル付けに使用されるようになりました。Netflix、Zoom、Heroku などの有名企業で使用されています。

Datasaur は、iMerit などの専門的なデータ注釈機関でも使用されています。世界中に 5,000 人の従業員を擁する iMerit は、データラベリング業界で強力な存在に成長しました。同社には、多くの有名企業を含む 100 社の顧客がおり、これらの顧客は同社のデータ注釈ネットワークを使用して、高品質のラベル付きデータとディープラーニングモデルを連携させています。

データのラベル付けは主観的な性質を持つため、単純な処理ではありません。

多くの場合、座ってデータがどこにあるのか、何が必要なのかを把握する必要があります。それは単なるツール、人材、プロセス以上のものです。これら3つを組み合わせたものです。

コンテキストは、データ注釈プロセスにとって非常に重要です。これはおそらく、機械が文脈を理解する能力が低いためでしょう。 AI の使用事例が絶えず変化しているためかもしれません。理由が何であれ、その必要性は明らかです。

高品質のトレーニングデータを開発するにはコンテキストがいかに重要であるかを示すために、トラックに乗った建設作業員の例を見てみましょう。トラックに座っている作業員を想像してください。作業員はメンテナンスセクションに到着するたびに、トラックから降りて作業をし、その後再びトラックに乗らなければなりません。したがって、データのラベル付けに関する質問は次のようになります。作業員は歩行者ですか? トラックの一部ですか? それとも別の人ですか?

車両を数える場合、作業員が車両に乗り降りするかどうかは考慮しません。関心があるのは建設車両だけですが、ゴミ収集車にぶつからないように他の何か（自動運転や交通流制御など）を操作しようとしている場合は、ゴミ収集車の動きが大きな関心事になります。疑わしい行動を探している場合は、同様の行動のリストからゴミ収集車を除外する必要があります。

しかし、AI が適用される視点に応じて、労働者の状態が異なることは明らかです。データのラベル付けについては、データが異なる時期に異なるラベルを持つ可能性があるという事実を証明します。時には、答えが一つだけではないこともあります。

データ注釈付けプロセスの綿密さはデータ品質の向上に非常に重要であり、機械学習モデルの予測推論品質に直接影響します。データにより予測精度が 60% ～ 70% に達することもあれば、95% に達することもあります。

使用ケースによっては、精度が重要になります。ビデオで万引きを検出するモデルを構築する場合、偽陰性（盗難に気付く）と偽陽性（無実の顧客を非難する）の間には大きな違いがあります。

<<: AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

>>: 人工知能は教育にどのような変化をもたらすのでしょうか?

世界初、常温量子コンピュータが実用化！絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

より良い機械学習にはより良いデータ注釈が必要

世界初、常温量子コンピュータが実用化！絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

ロジスティック回帰を用いた分類

自動運転のためのエンドツーエンドの計画方法の概要

知識が求められるポストディープラーニング時代において、知識グラフをいかに効率的かつ自動的に構築できるのでしょうか?

自動運転における機械学習アルゴリズムの理解

テレンス・タオがGPT-4のチャット履歴を公開、研究アシスタントを入手するにはここをクリック

2022 年のインテリジェントコネクテッドビークルの技術トレンドトップ 10

年末総括：2020 年の人工知能の注目イベント一覧

推薦する

国際ビデオ品質評価アルゴリズムコンテスト：Volcano Engine が優勝

画像や音声などのソーシャルデータを使用することで、人工知能技術は亡くなった親戚や友人とのコミュニケーションを可能にするかもしれない。

2022 RPA認定ランキング

Jiuzhang Cloud DataCanvas がシリーズ C 資金調達を完了: 標準化された AI インフラストラクチャの未来を定義する

AIのおかげで売上が24%増加しました。このようなAI人材はどこで見つけられるのでしょうか?

AIを信頼していない経営者は何を考えているのか？

AI 計画ガイド: デジタル変革に不可欠なステップ

人工知能 (AI) は、研究室から実際のアプリケーションまでどのように異なるのでしょうか?

AIの急速な発展によってもたらされるエネルギー需要をどう解決するか？

機械学習サーバーの利用率とスケーラビリティを最大化するにはどうすればよいでしょうか?

ChatGPT 以外にも驚くような 6 つの AI ツール

データセキュリティの向上と人工知能の信頼性の向上