データが人工知能の基盤となる理由

データが人工知能の基盤となる理由

データ注釈とは何ですか?

ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のトレーニングにはコンピューターが理解できる構造化データが必要です。ラベル付きデータとは、トレーニングや予測ができるように、ターゲット モデルでラベル付けまたは注釈付けされたデータを意味します。通常、データのラベル付けには、データのタグ付け、注釈、レビュー、分類、転記、および処理が含まれます。データにはラベルが付けられ、特定の特徴が強調表示され、その特徴に基づいて分類されます。モデルはパターンを分析して新しいターゲットを予測します。

AI プロジェクトではデータにどのくらいの時間がかかりますか?

機械学習およびディープラーニング モデルのトレーニングには、モデルの展開、トレーニング、調整に使用できる豊富なデータが必要です。機械学習およびディープラーニング モデルのトレーニングには、慎重にラベル付けされた大量のデータが必要です。生データにラベルを付け、機械学習モデルやその他の AI ワークフローで使用できるように準備することをデータ アノテーションと呼びます。関連する統計によると、AI プロジェクトではデータの整理に 80% 以上の時間が費やされています。通常、人工知能プロジェクトでは、データの需要は3回程度に分かれています。1回目はプロジェクト開始時の検証段階です。需要は比較的少なく、実現可能性とルールを決定する必要があります。2回目はプロジェクトが正式に開始され、モデルのトレーニングに大量のデータが必要になるときです。3回目はトレーニングと検証が完了した後、目的の目標を達成するために、不十分な領域についてトレーニングセットを補充します。次の図は、人工知能機械学習プロジェクトにおける各タスクの時間の割合を示しています。

人工知能におけるデータ注釈のコストはいくらですか?

データ関連の機械学習コストは、データセットの収集、クリーニング、データのラベル付けなど、主にデータセットに反映されます。 Alegion の依頼で Dimensional Research が実施した新しい調査によると、全組織の 96% がトレーニング データの品質と量に関連する問題を経験しています。同じ調査では、ほとんどのプロジェクトでは、良好なパフォーマンスを得るために 100,000 を超えるデータ サンプルが必要であることが示されました。

Dimensional Research のこのグラフは、企業がデータに関して直面する最も一般的な問題のいくつかを示しています。

まだデータがない場合は、約 1 時間で 5 ~ 10 個のサンプルを収集して注釈を付けることができると想定できます。 Amazon の Mechanical Turk のようなサービスを使用してプロジェクトプロセス全体を検証すると、100,000 件の適格な例のデータセットを生成するのに約 70,000 ドルのコストがかかります。

すでに大量のデータを収集している場合は、専門的なデータ注釈サービス会社を利用して注釈を付けることができます。この場合、100,000 個のラベル付きデータ サンプルを取得するには、注釈の複雑さに応じて 8,000 ~ 80,000 ドルのコストがかかる可能性があります。

さらに、データ サンプルの確認と修正には、データ サンプルの生成と注釈付けと同じくらい時間がかかります。 Dimensional Research の調査によると、66% の企業がデータ セットに偏りやエラーを経験していることがわかりました。完全に社内で行うアプローチ(注釈付けをすべて自社で行う)を選択する企業もあれば、アウトソーシングと社内の組み合わせを選択する企業もあります。 2 番目によくあるシナリオは、作業の大部分を外部委託し、社内の個々の担当者に検証とクリーンアップの責任を負わせることです。 100,000 のデータ サンプルをアウトソーシングする場合の初期コストは、約 2,500 ~ 5,000 ドル追加される可能性があります。

データコストに加えて、アルゴリズムの人件費、コンピューティング機器のコスト、プロジェクト実装コストもあります。アドオンのコストとさまざまな電力消費量を除くと、機械学習プロジェクトには企業あたり 51,750 ~ 136,750 ドルのコストがかかる可能性があります (判断が難しいその他のコストは含みません)。価格差は主にデータによって決まります。これは非常に楽観的な見積もりです。企業が米国に拠点を置き、高品質のデータを使用している場合(フリーランサーはそうしません)、人材関連のコストが急騰し、AI 機械学習プロジェクトのコストは 108,500 ドルを超えます。

この高価格により、新たな問題を解決したりプロセスを自動化したりすることが困難になります。個人、小規模チーム、スタートアップには意思決定を行う余裕がありません。

データ処理で最も難しい部分は何ですか?

最も難しいステップは最初のステップ、つまりデータの取得です。データがなければ、研究段階で機械学習ソリューションを検証することはほぼ不可能であり、プロジェクトの進行はほぼ不可能になります。

工業、医療、セキュリティ、教育、金融などの業界は、将来の業界の変化に対する人工知能の重要性を認識し、それぞれが市場に参入して独自の人工知能アプリケーションを開発しています。しかし、これらの分野ではデータの機密性とデータセキュリティにますます注意が払われているため、これらの要因により人工知能研究の民営化が進む可能性があります。人工知能が徐々に民営化されつつあるのは事実です。こうした環境の中で、データラベリングサービス、トレーニングモデルプラットフォーム、コンピューティングパワー機器などはすべて、民間展開のための独自のソリューションを開発してきました。

<<:  深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

>>:  100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能は人間を監視しているのでしょうか?現在のAIと未来のAIのギャップ

アルゴリズムで構成されたAI多くの人は、一部の新しいハイテク概念は手の届かないものだと考えています。...

大規模な山火事をどうやって消火するか?ドローンがコンビネーションパンチを繰り出す!

環球時報などの報道によると、春の干ばつ、少雨、強風の影響で、18日にモンゴルで草原の山火事が発生した...

...

中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

[[429193]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

アリババAIはダブル11ショッピングフェスティバルの衣料品工場で運用され、欠陥認識の精度は人間を上回った。

AI がダブル 11 の生産と製造をスピードアップします。 10月29日、記者は、アリババのAIア...

AIチップ市場に必要なのは火か氷か?

最近、AIチップ市場は明らかに冷え込んでいます。チップ市場のリーダーであるNvidiaが先日発表した...

...

誰もがエンドツーエンドに取り組んでいますが、エンドツーエンドの自動運転の基礎は何でしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

AIによる創薬は2024年までに急成長すると予想

1月7日の最大のニュースの一つは、Google DeepMindの創設者デミス・ハサビス氏が率いるG...

...

人工知能やモノのインターネットなどの技術は、気候変動のリスクを軽減する上で大きな役割を果たすことができる。

人工知能は、既存の技術と組織活動の効率を向上させることを目的としています。しかし、気候変動や、グリー...

Python のデータクロール、分析、マイニング、機械学習、Python 分散コンピューティングに関するコンテンツ共有

01 データキャプチャ1. 背景調査1) robots.txt をチェックして、サイトのクロールにど...

ロボティック・プロセス・オートメーション(RPA)がCIOにとって優先課題である理由

自動化技術は企業ビジネスの発展を促進しており、ロボティック・プロセス・オートメーション (RPA) ...

2020年の中国の人工知能産業の現在の市場状況と競争環境の分析

我が国は、新たな科学技術革命と産業変革の機会を捉えるため、近年、新世代の人工知能の開発に力を入れてい...