機械学習トレーニングデータ戦略を開発するための 6 つのヒント

人工知能 (AI) と機械学習 (ML) は今や当たり前のものとなっています。 AI は人間の認知を模倣する機械の概念を指し、ML は AI を構築するために使用される方法です。 AI が指示に基づいて一連のタスクを実行するコンピュータの能力を指すのに対し、ML はタスクをより正確に完了するためにデータを取り込んで解釈し、データから学習する機械の能力を指します。

自動車、金融、政府、医療、小売、テクノロジーなどの業界のほとんどのマネージャーは、すでに ML と AI に関する基本的な理解を持っています。しかし、トレーニングデータ戦略の開発は、ML で高い投資収益率を達成するために必要な最初のステップであることが多いため、誰もがその専門家であるわけではありません。

AI システムは例によって学習し、高品質の例データが多いほど、学習効果も高まります。トレーニングデータが不足しているか、品質が低いと、信頼性の低いシステムが生まれ、誤った結論が導かれ、適切な決定が下されず、現実世界の変動に対処できず、バイアスなどの問題が生じたり、問題が継続したりする可能性があります。

AI システムのトレーニング、テスト、最適化に必要なデータを収集および整理するための明確な戦略がなければ、プロジェクトが遅れたり、適切なスケーリングができなかったり、競合他社に追い抜かれたりするリスクがあります。成功するトレーニングデータ戦略を構築するための 6 つのヒントを紹介します。

[[275795]]

Pixabay による写真（Pexels）

1. トレーニングデータ予算を作成する

新しい ML プロジェクトを開始するときに最初に定義するのは、達成する目標です。これにより、システムに必要なデータの種類と、必要な「トレーニング項目」（分類されたデータポイント）の数がわかります。

たとえば、コンピュータービジョンまたは画像認識プロジェクトのトレーニングプロジェクトでは、人間の注釈でラベル付けされた画像データを使用して、画像の内容 (木、一時停止の標識、人物、車など) を識別します。さらに、構築しているソリューションの種類によっては、モデルを継続的に再トレーニングまたは更新する必要がある場合があります。ソリューションは四半期ごと、毎月、あるいは毎週更新する必要がある場合があります。

トレーニングの目標と更新頻度を決定したら、データの取得オプションを評価し、予算を計算できます。

ソリューションが顧客にとって関連性と価値あるものであり続けるためには、プログラムを開始し、長期にわたって維持し、ビジネスの成長に合わせて機能や機能性を改善するために必要な時間と費用を明確に理解することが重要です。 ML イニシアチブの立ち上げは長期的な投資です。高い収益を達成するには長期的な戦略が必要です。

2. 適切なデータを収集する

必要なデータの種類は、構築するソリューションの種類によって異なります。データソースには、実際の使用状況データ、調査データ、公開データセット、合成データなどが含まれます。たとえば、人間の音声コマンドを理解できる音声認識ソリューションは、テキストに変換された高品質の音声データ (実際のデータ) でトレーニングする必要があります。検索ソリューションでは、どの結果が最も関連しているかを判断するために、人間が注釈を付けたテキストデータが必要です。

ML で最も一般的に使用されるデータタイプは、画像、ビデオ、音声、オーディオ、テキストです。トレーニングデータは、ML で使用する前に、その内容を識別するために注釈を付けたりラベルを付けたりする必要があります。注釈は、各データの処理方法をモデルに指示します。たとえば、仮想アシスタントのトレーニングデータの一部が「単三電池を追加注文してください」という発言の録音である場合、注釈は、システムが「注文」と聞いたらオンライン小売業者に注文し、「単三電池」と聞いたら「単三電池」を検索するように指示する可能性があります。

3. データの品質を確保する

タスクによっては、データ注釈付けは比較的単純な作業になることもありますが、反復的で時間がかかり、常に正しく実行することが難しい作業でもあります。人間の介入が必要です。

不正確なデータでモデルをトレーニングすると、モデルが間違った動作をするため、データ品質が低いことに関連するリスクは高くなります。たとえば、自動運転車用のコンピュータービジョンシステムをトレーニングし、歩道の画像を誤って道路と認識した場合、結果は悲惨なものになる可能性があります。実際、データ品質の低さは、ML の広範囲かつ効果的な使用を妨げる最大の敵です。

データの品質について議論する場合、ラベルの正確性と一貫性について話していることになります。精度はラベルが真実にどれだけ近いかであり、一貫性は異なるトレーニング項目の複数の注釈が互いにどれだけ一致しているかです。

4. データの偏りに注意し、それを減らす

データ品質を重視することで、企業は AI ベースのソリューションが市場に出るまでは隠れたままになる可能性のある AI プロジェクトにおけるバイアスを軽減できます。この時点では、偏見を修正することは困難です。

バイアスは、多くの場合、プロジェクトチーム内の盲点や無意識の好み、またはプロジェクト開始時のトレーニングデータから生じます。 AI の偏りは、性別、アクセント、民族による音声認識や顔認識のパフォーマンスの不均一性として現れることがあります。 AI が私たちの文化に浸透するにつれて、今こそ固有の偏見に対処するときです。

プロジェクトレベルでの偏りを避けるには、目標、ロードマップ、指標、アルゴリズムを定義するチームを構築するときに、積極的に多様性を追求します。多様なデータ人材のチームを構築することは、言うほど簡単ではありませんが、リスクは大きいです。チームの内部構成が潜在顧客の外部構成を反映していない場合、最終製品が少数の人々にしか受け入れられず、大衆市場の機会を逃すリスクがあります。さらに悪いことに、偏見によって AI が現実世界で差別化してしまう可能性もあります。

5. 必要に応じてデータセキュリティを実装する

すべてのデータプロジェクトが個人を特定できる情報 (PII) や機密データを使用するわけではありません。この種の情報を活用するソリューションでは、特に顧客の個人情報、財務または政府の記録、またはユーザーが作成したコンテンツを扱う場合、データセキュリティがこれまで以上に重要になります。企業が顧客情報をどのように取り扱うべきかを規定する政府の規制が増えています。

この機密データを保護することで、あなたと顧客の情報が保護されます。業務の透明性と倫理性を保ち、利用規約を遵守することで、競争上の優位性が得られます。そうしないと、スキャンダルやブランドへの悪影響のリスクにさらされることになります。

6. 適切なテクノロジーを選択する

トレーニングデータが複雑または微妙であればあるほど、結果は良くなります。ほとんどの組織では、大量の高品質なトレーニングデータを迅速かつ大規模に必要としています。これを実現するには、モデルの更新に必要な速度で十分なデータを提供するデータパイプラインを構築する必要があります。そのため、適切なデータ注釈技術を採用することが重要です。

選択するツールは、プロジェクトに適切なデータタイプを処理し、柔軟なラベル付けワークフロー設計を可能にし、個々のアノテーターの品質とスループットを管理し、人間のアノテーターのパフォーマンスを強化するために ML 支援のデータラベル付けを提供できる必要があります。

AIプロジェクトの成功を確実にする戦略を策定する

IHS Markit による最近の調査によると、87% の組織が人工知能などの変革的テクノロジーを少なくとも 1 つ導入していますが、これらのテクノロジーから最大限の価値を引き出すための適切なビジネスモデルを導入していると考えているのは 26% にすぎません。

堅実なトレーニングデータ戦略を作成することは、AI から価値を引き出すための第一歩です。これには、予算の設定、データソースの特定、品質の確保、セキュリティの確保が含まれます。明確なデータ戦略は、ほとんどの ML モデルを定期的に更新するために必要な安定したデータパイプラインの提供にも役立ちます。トレーニングデータ戦略だけでは AI の成功を保証することはできませんが、企業が AI のメリットをより有効に活用するのに役立ちます。

<<: 建設業界はAIとIoTの次の大きなターゲット

>>: IoT 革命の基盤を築く: 手遅れになる前に企業がデータ戦略を完成させる方法