機械学習における3つの重要なデータ課題

機械学習における3つの重要なデータ課題

機械学習にとってデータがどれほど重要であるかは誰もが知っています。データ アクセス パターンを理解することで、データ サイエンティストはプロジェクトに適したストレージ インフラストラクチャを決定できるようになります。データ インフラストラクチャにより機械学習が可能になります。しかし、機械学習が実際に使用されると、まず対処する必要がある重要なデータ課題に直面します。

  • 品質
  • スパース性
  • 完全

次に、機械学習の課題を克服する方法を理解できるように、それぞれについて詳しく見ていきましょう。

1. 品質

多くのデータ サイエンティストは、外部ソースからのデータを活用したいと考えています。ただし、生データがどのように取得されたかについては、品質管理や保証が行われていないことがよくあります。

外部データの正確さを信頼しますか?

これは良い例です。海に浮かぶブイに取り付けられたセンサーが海水温に関するデータを収集します。ただし、センサーが温度を収集できない場合は、999 として記録されます。さらに、2000 年以前は、年号は 2 桁のみで記録されていました。しかし、2000年以降、記録された数は4に変わりました。

したがって、データの品質とその準備方法を理解する必要があります。この場合、ブイ データを分析する科学者は、平均値、中間値、最小値、最大値を使用して生データを視覚化し、これらのデータベース エラーを検出して、それに応じてエラーをクリーンアップできます。

2. スパース性

この場合、スパース性はメタデータに適用されます。多くの場合、メタデータ フィールドは不完全で、一部のフィールドは入力され、一部のフィールドは空白のままになっています。データが単一のソースから生成される場合、それは人間側の規範や知識の欠如が原因である可能性があります。ただし、データがメタデータの標準定義のないさまざまなソースから取得される場合、各データセットにはまったく異なるフィールドが含まれる可能性があります。そのため、それらを組み合わせると、完了したフィールドが一致しない可能性があります。

現在、どのようなメタデータをキャプチャするかについての業界標準はありません。ただし、メタデータはデータ自体と同じくらい重要です。同じ種類のデータが異なるメタデータ フィールドに入力されている場合、データをどのように関連付け、フィルター処理しますか?

ブイを例に挙げると、初期のデータ センサーは 10 分ごとに水温を収集していましたが、新しいブイは 3 分ごとに水温を収集します。データを関連付ける唯一の方法は、キャプチャ時に公開されるメタデータを使用することです。科学者が歴史的分析を行う際には、それに応じてモデルを調整できるようにメタデータが必要です。

3. 完全性

データの整合性は、データの正確性と一貫性を保証します。データの保管チェーンは、データがパイプラインや場所を移動する際に侵害されていないことを証明するために重要です。データのキャプチャと取り込みが制御されている場合、データの整合性を比較的簡単に検証できます。しかし、他の人と協力する場合、検証するのは困難です。データが生成されるときに、外部データに対するセキュリティ証明書は存在しません。また、データが期待どおりに記録されたことや、受信したデータが元々記録されていたものとまったく同じであることを保証することもできません。

IoT データとブロックチェーンに関しては興味深い概念がいくつかありますが、そのような概念が広く採用されるまで、データの整合性はセキュリティ技術とポリシーの組み合わせに依存します。たとえば、データは保存中または転送中に侵害される可能性があるため、ネットワーク経由で送信されるデータは https を使用し、保存時には暗号化する必要があります。一方、人為的なエラーを回避するために、アクセス制御はポリシーに基づいて行う必要があります。

始めるにはどうすればいいですか?

データの品質、スパース性、完全性は、最終モデルの精度に直接影響し、今日の機械学習が直面している最大の課題の一部です。明確なデータ定義とポリシーを持ち、業界固有のデータ標準を探求する組織は、短期プロジェクトと長期プロジェクトの両方でメリットを得られます。

まだ行っていない場合は、まず組織で独自のデータ収集ポリシーとメタデータ形式を定義し、次に標準的なセキュリティ手法を適用する必要があります。データの品質とスパース性は密接に関係しています。次に、メタデータ戦略を設定し、収集した定性データを使用してデータの有効性を検証できるようにします。最後に、データの整合性を確保するために、データの生成時にデジタル証明書を適用し、送信中に SSL を強制し、暗号化を常に有効にする必要があります。

安全なデータコラボレーション

外部組織と常にデータを交換する必要がある業界の場合、データとメタ形式をオープンソース化することが最善です。これらの標準は、多くの独自の標準よりも広く普及しているからです。さらに良い方法としては、業界のオープン スタンダード委員会を立ち上げ、他の人が参加して貢献できるようにすることができます。良い例は Open Targets (https://www.opentargets.org/) です。これは「ヒト遺伝学とゲノミクスのデータを活用して、薬剤ターゲットを体系的に特定し、優先順位を付ける官民パートナーシップ」です。

特に、研究データのエコシステムは非常に複雑になっており、組織内外の協力者はデータへの迅速なアクセスとデータ管理の簡素化を必要としています。機械学習には多くの課題があります。最初のステップは、適切なデータとインフラストラクチャを使用してプロジェクトを開始することです。

<<:  7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

>>:  人工知能がウェブホスティング業界に優位性をもたらす

ブログ    
ブログ    

推薦する

未成年者の顔情報の処理には保護者の個別の同意が必要です

[[414012]] 「顔認識技術を用いた個人情報処理に関する民事訴訟における法律適用の若干の問題に...

あなたのビジネスに必要な AI 処理ユニットはどれですか?

データセンターに AI を導入することを検討している場合は、まず投資すべきハードウェアとインフラスト...

...

...

Pythonを使用して独自のTwitterボットを構築する方法を学びます

Twitter を使用すると、ユーザーはブログの投稿や記事を世界と共有できます。 Python と ...

...

シスコの調査:企業の25%以上が社内で生成AIの禁止を実施している

シスコが実施した調査によると、データプライバシーの面で生成AIに欠点があることを理解しているにもかか...

アリババの顔認識セキュリティ技術が3Dマスク攻撃を防ぐ特許を取得

[[334032]]顔認識と 3D テクノロジーが融合したとき、最終的な勝者は誰になるでしょうか? ...

「概念のドリフト」問題と闘おう! Google が新しい時間認識フレームワークをリリース: 画像認識精度が 15% 向上

機械学習の分野では、コンセプトドリフトという問題が長い間研究者を悩ませてきました。つまり、データの分...

...

2023 年の IT ネットワーク トレンド トップ 10

2023 年には、IT ネットワーキング分野でいくつかの重要なトレンドが流行するでしょう。大まかに...

生成 AI は現在の DevOps および SRE 作業システムをどのようにサポートしますか?

こんにちは、ルガです。今日は、人工知能エコシステムの中核技術である「生成型人工知能」を意味する GA...

ChatGPTが新たな著作権紛争に巻き込まれる: ホラー小説作家2人が、訓練のために作品を盗んだとしてOpenAIを訴えた

7月6日、AIモデルのトレーニングデータソースの著作権は常に話題となっていた。以前、マイクロソフトは...

...

AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があ...