データが人工知能の基盤となる理由

データが人工知能の基盤となる理由

データ注釈とは何ですか?

ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のトレーニングにはコンピューターが理解できる構造化データが必要です。ラベル付きデータとは、トレーニングや予測ができるように、ターゲット モデルでラベル付けまたは注釈付けされたデータを意味します。通常、データのラベル付けには、データのタグ付け、注釈、レビュー、分類、転記、および処理が含まれます。データにはラベルが付けられ、特定の特徴が強調表示され、その特徴に基づいて分類されます。モデルはパターンを分析して新しいターゲットを予測します。

AI プロジェクトではデータにどのくらいの時間がかかりますか?

機械学習およびディープラーニング モデルのトレーニングには、モデルの展開、トレーニング、調整に使用できる豊富なデータが必要です。機械学習およびディープラーニング モデルのトレーニングには、慎重にラベル付けされた大量のデータが必要です。生データにラベルを付け、機械学習モデルやその他の AI ワークフローで使用できるように準備することをデータ アノテーションと呼びます。関連する統計によると、AI プロジェクトではデータの整理に 80% 以上の時間が費やされています。通常、人工知能プロジェクトでは、データの需要は3回程度に分かれています。1回目はプロジェクト開始時の検証段階です。需要は比較的少なく、実現可能性とルールを決定する必要があります。2回目はプロジェクトが正式に開始され、モデルのトレーニングに大量のデータが必要になるときです。3回目はトレーニングと検証が完了した後、目的の目標を達成するために、不十分な領域についてトレーニングセットを補充します。次の図は、人工知能機械学習プロジェクトにおける各タスクの時間の割合を示しています。

人工知能におけるデータ注釈のコストはいくらですか?

データ関連の機械学習コストは、データセットの収集、クリーニング、データのラベル付けなど、主にデータセットに反映されます。 Alegion の依頼で Dimensional Research が実施した新しい調査によると、全組織の 96% がトレーニング データの品質と量に関連する問題を経験しています。同じ調査では、ほとんどのプロジェクトでは、良好なパフォーマンスを得るために 100,000 を超えるデータ サンプルが必要であることが示されました。

Dimensional Research のこのグラフは、企業がデータに関して直面する最も一般的な問題のいくつかを示しています。

まだデータがない場合は、約 1 時間で 5 ~ 10 個のサンプルを収集して注釈を付けることができると想定できます。 Amazon の Mechanical Turk のようなサービスを使用してプロジェクトプロセス全体を検証すると、100,000 件の適格な例のデータセットを生成するのに約 70,000 ドルのコストがかかります。

すでに大量のデータを収集している場合は、専門的なデータ注釈サービス会社を利用して注釈を付けることができます。この場合、100,000 個のラベル付きデータ サンプルを取得するには、注釈の複雑さに応じて 8,000 ~ 80,000 ドルのコストがかかる可能性があります。

さらに、データ サンプルの確認と修正には、データ サンプルの生成と注釈付けと同じくらい時間がかかります。 Dimensional Research の調査によると、66% の企業がデータ セットに偏りやエラーを経験していることがわかりました。完全に社内で行うアプローチ(注釈付けをすべて自社で行う)を選択する企業もあれば、アウトソーシングと社内の組み合わせを選択する企業もあります。 2 番目によくあるシナリオは、作業の大部分を外部委託し、社内の個々の担当者に検証とクリーンアップの責任を負わせることです。 100,000 のデータ サンプルをアウトソーシングする場合の初期コストは、約 2,500 ~ 5,000 ドル追加される可能性があります。

データコストに加えて、アルゴリズムの人件費、コンピューティング機器のコスト、プロジェクト実装コストもあります。アドオンのコストとさまざまな電力消費量を除くと、機械学習プロジェクトには企業あたり 51,750 ~ 136,750 ドルのコストがかかる可能性があります (判断が難しいその他のコストは含みません)。価格差は主にデータによって決まります。これは非常に楽観的な見積もりです。企業が米国に拠点を置き、高品質のデータを使用している場合(フリーランサーはそうしません)、人材関連のコストが急騰し、AI 機械学習プロジェクトのコストは 108,500 ドルを超えます。

この高価格により、新たな問題を解決したりプロセスを自動化したりすることが困難になります。個人、小規模チーム、スタートアップには意思決定を行う余裕がありません。

データ処理で最も難しい部分は何ですか?

最も難しいステップは最初のステップ、つまりデータの取得です。データがなければ、研究段階で機械学習ソリューションを検証することはほぼ不可能であり、プロジェクトの進行はほぼ不可能になります。

工業、医療、セキュリティ、教育、金融などの業界は、将来の業界の変化に対する人工知能の重要性を認識し、それぞれが市場に参入して独自の人工知能アプリケーションを開発しています。しかし、これらの分野ではデータの機密性とデータセキュリティにますます注意が払われているため、これらの要因により人工知能研究の民営化が進む可能性があります。人工知能が徐々に民営化されつつあるのは事実です。こうした環境の中で、データラベリングサービス、トレーニングモデルプラットフォーム、コンピューティングパワー機器などはすべて、民間展開のための独自のソリューションを開発してきました。

<<:  深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

>>:  100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

ブログ    

推薦する

最新研究:スーパー人工知能は理論的には制御不能

計算能力には限界があるため、人間が超人工知能を制御することはできません。 [[379749]]最近、...

携帯電話のビデオの最大の問題は揺れですが、AIだけがそれを救えます

携帯電話でビデオを撮影するときの最大の問題は何ですか?振る……ビデオのジッターは緊急に解決する必要が...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950 年代にまで遡ります。...

最初にサンプルが多すぎますか? 5つのサンプリングアルゴリズムを数分で実行できます

データサイエンスはアルゴリズムの研究です。この記事では、データを処理するための一般的なサンプリング手...

インターネット上の無料データサイエンス、機械学習、人工知能のMOOCベスト20

21 世紀において、伝統的な教育は人生において必要な段階ではなく、選択肢となっています。インターネ...

...

マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

マイクロソフトリサーチアジアは、「中国の大学における人工知能人材の国際トレーニングプログラム」に関す...

コンテキスト化によって生成型AIの可能性を解き放つ方法

生成型人工知能 (GenAI) が驚異的なスピードで進歩するにつれ、その真の価値を活用したい企業にと...

1日で13.5%も急落!オラクル株は2002年以来最大の下落

オラクルの株価は現地時間9月12日に13.5%急落し、20年以上で最大の下落を記録した。その理由は、...

人工知能は企業の持続可能な発展をどのようにサポートできるのでしょうか?

人工知能の普及は社会に大きな影響を与え、私たちの仕事、生活、コミュニケーションの方法を変えました。現...

シンプルで強力な顔認識プロジェクトがGitHubのトレンドリストに登場

最近、face_recognitionという顔認識プロジェクトがGitHubのトレンドリストに掲載さ...

人工知能の新たなブレークスルー:ニューラルネットワークが画像内の物体を自律的に識別できる

海外メディアの報道によると、フィンランドのコンピューター科学者は神経生物学的手法を用いて人工知能研究...

ボストンのロボットが話題になった後、別のヒューマノイドロボットがデビューした

10年以上前、テヘラン大学の研究者らは、Surenaと呼ばれる原始的なヒューマノイドロボットを発表し...

Java プログラミング スキル - データ構造とアルゴリズム「ヒープ ソート」

[[389058]]ヒープソートの基本ヒープソートは、ヒープデータ構造を使用して設計されたソートア...

GPT-4 の出力がなぜそれほどランダムなのか、深く考えたことはありますか?

今年はAI分野で大規模言語モデル(LLM)が注目され、OpenAIのChatGPTやGPT-4が大人...