機械学習における3つの重要なデータ課題

機械学習における3つの重要なデータ課題

機械学習にとってデータがどれほど重要であるかは誰もが知っています。データ アクセス パターンを理解することで、データ サイエンティストはプロジェクトに適したストレージ インフラストラクチャを決定できるようになります。データ インフラストラクチャにより機械学習が可能になります。しかし、機械学習が実際に使用されると、まず対処する必要がある重要なデータ課題に直面します。

  • 品質
  • スパース性
  • 完全

次に、機械学習の課題を克服する方法を理解できるように、それぞれについて詳しく見ていきましょう。

1. 品質

多くのデータ サイエンティストは、外部ソースからのデータを活用したいと考えています。ただし、生データがどのように取得されたかについては、品質管理や保証が行われていないことがよくあります。

外部データの正確さを信頼しますか?

これは良い例です。海に浮かぶブイに取り付けられたセンサーが海水温に関するデータを収集します。ただし、センサーが温度を収集できない場合は、999 として記録されます。さらに、2000 年以前は、年号は 2 桁のみで記録されていました。しかし、2000年以降、記録された数は4に変わりました。

したがって、データの品質とその準備方法を理解する必要があります。この場合、ブイ データを分析する科学者は、平均値、中間値、最小値、最大値を使用して生データを視覚化し、これらのデータベース エラーを検出して、それに応じてエラーをクリーンアップできます。

2. スパース性

この場合、スパース性はメタデータに適用されます。多くの場合、メタデータ フィールドは不完全で、一部のフィールドは入力され、一部のフィールドは空白のままになっています。データが単一のソースから生成される場合、それは人間側の規範や知識の欠如が原因である可能性があります。ただし、データがメタデータの標準定義のないさまざまなソースから取得される場合、各データセットにはまったく異なるフィールドが含まれる可能性があります。そのため、それらを組み合わせると、完了したフィールドが一致しない可能性があります。

現在、どのようなメタデータをキャプチャするかについての業界標準はありません。ただし、メタデータはデータ自体と同じくらい重要です。同じ種類のデータが異なるメタデータ フィールドに入力されている場合、データをどのように関連付け、フィルター処理しますか?

ブイを例に挙げると、初期のデータ センサーは 10 分ごとに水温を収集していましたが、新しいブイは 3 分ごとに水温を収集します。データを関連付ける唯一の方法は、キャプチャ時に公開されるメタデータを使用することです。科学者が歴史的分析を行う際には、それに応じてモデルを調整できるようにメタデータが必要です。

3. 完全性

データの整合性は、データの正確性と一貫性を保証します。データの保管チェーンは、データがパイプラインや場所を移動する際に侵害されていないことを証明するために重要です。データのキャプチャと取り込みが制御されている場合、データの整合性を比較的簡単に検証できます。しかし、他の人と協力する場合、検証するのは困難です。データが生成されるときに、外部データに対するセキュリティ証明書は存在しません。また、データが期待どおりに記録されたことや、受信したデータが元々記録されていたものとまったく同じであることを保証することもできません。

IoT データとブロックチェーンに関しては興味深い概念がいくつかありますが、そのような概念が広く採用されるまで、データの整合性はセキュリティ技術とポリシーの組み合わせに依存します。たとえば、データは保存中または転送中に侵害される可能性があるため、ネットワーク経由で送信されるデータは https を使用し、保存時には暗号化する必要があります。一方、人為的なエラーを回避するために、アクセス制御はポリシーに基づいて行う必要があります。

始めるにはどうすればいいですか?

データの品質、スパース性、完全性は、最終モデルの精度に直接影響し、今日の機械学習が直面している最大の課題の一部です。明確なデータ定義とポリシーを持ち、業界固有のデータ標準を探求する組織は、短期プロジェクトと長期プロジェクトの両方でメリットを得られます。

まだ行っていない場合は、まず組織で独自のデータ収集ポリシーとメタデータ形式を定義し、次に標準的なセキュリティ手法を適用する必要があります。データの品質とスパース性は密接に関係しています。次に、メタデータ戦略を設定し、収集した定性データを使用してデータの有効性を検証できるようにします。最後に、データの整合性を確保するために、データの生成時にデジタル証明書を適用し、送信中に SSL を強制し、暗号化を常に有効にする必要があります。

安全なデータコラボレーション

外部組織と常にデータを交換する必要がある業界の場合、データとメタ形式をオープンソース化することが最善です。これらの標準は、多くの独自の標準よりも広く普及しているからです。さらに良い方法としては、業界のオープン スタンダード委員会を立ち上げ、他の人が参加して貢献できるようにすることができます。良い例は Open Targets (https://www.opentargets.org/) です。これは「ヒト遺伝学とゲノミクスのデータを活用して、薬剤ターゲットを体系的に特定し、優先順位を付ける官民パートナーシップ」です。

特に、研究データのエコシステムは非常に複雑になっており、組織内外の協力者はデータへの迅速なアクセスとデータ管理の簡素化を必要としています。機械学習には多くの課題があります。最初のステップは、適切なデータとインフラストラクチャを使用してプロジェクトを開始することです。

<<:  7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

>>:  人工知能がウェブホスティング業界に優位性をもたらす

ブログ    
ブログ    
ブログ    

推薦する

サービスロボットは驚異的なユニコーンを生み出すことができるか?

サービスロボットはニッチな領域を超えつつあるようだ。まず、2018年の世界ロボット産業の市場規模は2...

2021年の量子コンピューティング研究開発の現状と将来展望

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

大量データのための2次パーソナルコネクションマイニングアルゴリズム(Hadoop実装)

私は最近、Sina Weibo の「あなたに興味があるかもしれない人々」の間接的なフォローアップ推奨...

RealAIは、業界の信頼できる発展を促進するために人工知能セキュリティ技術ツールを作成します。

4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...

CMU中国人がビッグモデルのブラックボックスを破り、ラマ2の嘘が一目で見抜かれた!脳波が明らかになり、LLMマトリックスが完全に明らかになった

最近、CAIS、CMU、スタンフォード、コーネル、メリーランド、ペンシルベニアなどの大学の学者たちが...

Huawei の徐文偉氏: インテリジェントな未来を構想する (HC カンファレンス PPT + スピーチ全文)

第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...

Tencent Youtu:ビジュアルAIはどこまで発展したのか?

[[204589]] AIの発展に伴い、コンピュータービジョン技術の応用範囲は徐々に広がっています...

マイクロソフト、テンセント、インテルがキュウリを栽培する理由:AIのせい

[[249198]]マイクロソフト、テンセント、インテルがキュウリ栽培にAIを活用北京時間11月13...

高所から物が投げ出される悲劇が多発。AI監視システム「私があなたを守ります」

近年、高所から物が投げられたり落下したりして負傷する事故が多発しています。水のボトル、スイカの皮、缶...

パラメータ調整器、ここを見てください!ディープラーニングのトレーニング効率を向上させる2つのコツ

[[343402]] 1. トレーニングのボトルネックはどこですか? GPU 使用率が低い: モデル...

人工知能がデジタル変革の課題に対処できる 5 つの分野

[[378652]]調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能...

...

世界をリセットし、すべてをつなげる5Gは人工知能にどんな機会と課題をもたらすのか

[[274397]] 5G時代は人工知能にどのような新たな機会をもたらすのでしょうか?人工知能と5G...

...

...