機械学習トレーニングデータ戦略を開発するための 6 つのヒント

機械学習トレーニングデータ戦略を開発するための 6 つのヒント

人工知能 (AI) と機械学習 (ML) は今や当たり前のものとなっています。 AI は人間の認知を模倣する機械の概念を指し、ML は AI を構築するために使用される方法です。 AI が指示に基づいて一連のタスクを実行するコンピュータの能力を指すのに対し、ML はタスクをより正確に完了するためにデータを取り込んで解釈し、データから学習する機械の能力を指します。

自動車、金融、政府、医療、小売、テクノロジーなどの業界のほとんどのマネージャーは、すでに ML と AI に関する基本的な理解を持っています。しかし、トレーニング データ戦略の開発は、ML で高い投資収益率を達成するために必要な最初のステップであることが多いため、誰もがその専門家であるわけではありません。

AI システムは例によって学習し、高品質の例データが多いほど、学習効果も高まります。トレーニング データが不足しているか、品質が低いと、信頼性の低いシステムが生まれ、誤った結論が導かれ、適切な決定が下されず、現実世界の変動に対処できず、バイアスなどの問題が生じたり、問題が継続したりする可能性があります。

AI システムのトレーニング、テスト、最適化に必要なデータを収集および整理するための明確な戦略がなければ、プロジェクトが遅れたり、適切なスケーリングができなかったり、競合他社に追い抜かれたりするリスクがあります。成功するトレーニング データ戦略を構築するための 6 つのヒントを紹介します。

[[275795]]

Pixabay による写真(Pexels)

1. トレーニングデータ予算を作成する

新しい ML プロジェクトを開始するときに最初に定義するのは、達成する目標です。これにより、システムに必要なデータの種類と、必要な「トレーニング項目」(分類されたデータ ポイント)の数がわかります。

たとえば、コンピューター ビジョンまたは画像認識プロジェクトのトレーニング プロジェクトでは、人間の注釈でラベル付けされた画像データを使用して、画像の内容 (木、一時停止の標識、人物、車など) を識別します。さらに、構築しているソリューションの種類によっては、モデルを継続的に再トレーニングまたは更新する必要がある場合があります。ソリューションは四半期ごと、毎月、あるいは毎週更新する必要がある場合があります。

トレーニングの目標と更新頻度を決定したら、データの取得オプションを評価し、予算を計算できます。

ソリューションが顧客にとって関連性と価値あるものであり続けるためには、プログラムを開始し、長期にわたって維持し、ビジネスの成長に合わせて機能や機能性を改善するために必要な時間と費用を明確に理解することが重要です。 ML イニシアチブの立ち上げは長期的な投資です。高い収益を達成するには長期的な戦略が必要です。

2. 適切なデータを収集する

必要なデータの種類は、構築するソリューションの種類によって異なります。データ ソースには、実際の使用状況データ、調査データ、公開データセット、合成データなどが含まれます。たとえば、人間の音声コマンドを理解できる音声認識ソリューションは、テキストに変換された高品質の音声データ (実際のデータ) でトレーニングする必要があります。検索ソリューションでは、どの結果が最も関連しているかを判断するために、人間が注釈を付けたテキスト データが必要です。

ML で最も一般的に使用されるデータ タイプは、画像、ビデオ、音声、オーディオ、テキストです。トレーニング データは、ML で使用する前に、その内容を識別するために注釈を付けたりラベルを付けたりする必要があります。注釈は、各データの処理方法をモデルに指示します。たとえば、仮想アシスタントのトレーニング データの一部が「単三電池を追加注文してください」という発言の録音である場合、注釈は、システムが「注文」と聞いたらオンライン小売業者に注文し、「単三電池」と聞いたら「単三電池」を検索するように指示する可能性があります。

3. データの品質を確保する

タスクによっては、データ注釈付けは比較的単純な作業になることもありますが、反復的で時間がかかり、常に正しく実行することが難しい作業でもあります。人間の介入が必要です。

不正確なデータでモデルをトレーニングすると、モデルが間違った動作をするため、データ品質が低いことに関連するリスクは高くなります。たとえば、自動運転車用のコンピューター ビジョン システムをトレーニングし、歩道の画像を誤って道路と認識した場合、結果は悲惨なものになる可能性があります。実際、データ品質の低さは、ML の広範囲かつ効果的な使用を妨げる最大の敵です。

データの品質について議論する場合、ラベルの正確性と一貫性について話していることになります。精度はラベルが真実にどれだけ近いかであり、一貫性は異なるトレーニング項目の複数の注釈が互いにどれだけ一致しているかです。

4. データの偏りに注意し、それを減らす

データ品質を重視することで、企業は AI ベースのソリューションが市場に出るまでは隠れたままになる可能性のある AI プロジェクトにおけるバイアスを軽減できます。この時点では、偏見を修正することは困難です。

バイアスは、多くの場合、プロジェクト チーム内の盲点や無意識の好み、またはプロジェクト開始時のトレーニング データから生じます。 AI の偏りは、性別、アクセント、民族による音声認識や顔認識のパフォーマンスの不均一性として現れることがあります。 AI が私たちの文化に浸透するにつれて、今こそ固有の偏見に対処するときです。

プロジェクト レベルでの偏りを避けるには、目標、ロードマップ、指標、アルゴリズムを定義するチームを構築するときに、積極的に多様性を追求します。多様なデータ人材のチームを構築することは、言うほど簡単ではありませんが、リスクは大きいです。チームの内部構成が潜在顧客の外部構成を反映していない場合、最終製品が少数の人々にしか受け入れられず、大衆市場の機会を逃すリスクがあります。さらに悪いことに、偏見によって AI が現実世界で差別化してしまう可能性もあります。

5. 必要に応じてデータセキュリティを実装する

すべてのデータ プロジェクトが個人を特定できる情報 (PII) や機密データを使用するわけではありません。この種の情報を活用するソリューションでは、特に顧客の個人情報、財務または政府の記録、またはユーザーが作成したコンテンツを扱う場合、データ セキュリティがこれまで以上に重要になります。企業が顧客情報をどのように取り扱うべきかを規定する政府の規制が増えています。

この機密データを保護することで、あなたと顧客の情報が保護されます。業務の透明性と倫理性を保ち、利用規約を遵守することで、競争上の優位性が得られます。そうしないと、スキャンダルやブランドへの悪影響のリスクにさらされることになります。

6. 適切なテクノロジーを選択する

トレーニング データが複雑または微妙であればあるほど、結果は良くなります。ほとんどの組織では、大量の高品質なトレーニング データを迅速かつ大規模に必要としています。これを実現するには、モデルの更新に必要な速度で十分なデータを提供するデータ パイプラインを構築する必要があります。そのため、適切なデータ注釈技術を採用することが重要です。

選択するツールは、プロジェクトに適切なデータ タイプを処理し、柔軟なラベル付けワークフロー設計を可能にし、個々のアノテーターの品質とスループットを管理し、人間のアノテーターのパフォーマンスを強化するために ML 支援のデータ ラベル付けを提供できる必要があります。

AIプロジェクトの成功を確実にする戦略を策定する

IHS Markit による最近の調査によると、87% の組織が人工知能などの変革的テクノロジーを少なくとも 1 つ導入していますが、これらのテクノロジーから最大限の価値を引き出すための適切なビジネス モデルを導入していると考えているのは 26% にすぎません。

堅実なトレーニング データ戦略を作成することは、AI から価値を引き出すための第一歩です。これには、予算の設定、データ ソースの特定、品質の確保、セキュリティの確保が含まれます。明確なデータ戦略は、ほとんどの ML モデルを定期的に更新するために必要な安定したデータ パイプラインの提供にも役立ちます。トレーニング データ戦略だけでは AI の成功を保証することはできませんが、企業が AI のメリットをより有効に活用するのに役立ちます。

<<:  建設業界はAIとIoTの次の大きなターゲット

>>:  IoT 革命の基盤を築く: 手遅れになる前に企業がデータ戦略を完成させる方法

ブログ    
ブログ    

推薦する

人工知能は諸刃の剣です。EUは利益を促進し、害を避けるための規制を導入しました。

近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...

米国、政府による顔認識技術の使用禁止を再法制化へ

[[406332]]米議会は火曜日、連邦法執行機関やその他の機関による顔認識技術の使用を禁止する法案...

MySQL: データ構造とアルゴリズムの原則

[[190898]]この記事では、MySQL データベースを研究対象として取り上げ、データベース イ...

...

クアルコムがSnapdragon 845の機能を発表:より高速で、より電力効率が高く、AIパフォーマンスが2倍に

12月6日ハワイ時間、クアルコムは第2回Snapdragonテクノロジーサミットで、新型Snapdr...

...

Microsoft CTO: AI は地方の住民がパンデミックを乗り切るのにどのように役立つのでしょうか?

[[324043]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

アルゴリズム分析への正しいアプローチ

[この一連のブログ投稿では、一般的なデータ構造と対応するアルゴリズムを分析および要約し、各ブログ投稿...

AIがサイバーセキュリティに与える影響

人工知能(AI)は、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーション...

Google の優れた NLP 事前トレーニング モデルはオープンソースで、BERT に勝る

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能は諜報機関の「大物」になると期待されている

諜報活動は私たちが想像するよりもはるかに退屈で複雑です。現在、米国の諜報機関は、手作業に代わる人工知...

...

2050年に「電子的不死」は達成されるのか?計画が鍵

海外メディアの報道によると、有名な未来学者イアン・ピアソン博士は最近、今後数十年以内に、人間は思考と...

...

GitHub のスター数は 10 万近くに達しています。インド人男性がすべての AI アルゴリズムを Python と Java で実装しました。

[[326676]]今日、アルゴリズムを実装した 2 つのプロジェクトが GitHub のホット ...