データが人工知能の基盤となる理由

データが人工知能の基盤となる理由

データ注釈とは何ですか?

ほとんどのデータはラベル付けされておらず、非構造化データですが、人工知能のトレーニングにはコンピューターが理解できる構造化データが必要です。ラベル付きデータとは、トレーニングや予測ができるように、ターゲット モデルでラベル付けまたは注釈付けされたデータを意味します。通常、データのラベル付けには、データのタグ付け、注釈、レビュー、分類、転記、および処理が含まれます。データにはラベルが付けられ、特定の特徴が強調表示され、その特徴に基づいて分類されます。モデルはパターンを分析して新しいターゲットを予測します。

AI プロジェクトではデータにどのくらいの時間がかかりますか?

機械学習およびディープラーニング モデルのトレーニングには、モデルの展開、トレーニング、調整に使用できる豊富なデータが必要です。機械学習およびディープラーニング モデルのトレーニングには、慎重にラベル付けされた大量のデータが必要です。生データにラベルを付け、機械学習モデルやその他の AI ワークフローで使用できるように準備することをデータ アノテーションと呼びます。関連する統計によると、AI プロジェクトではデータの整理に 80% 以上の時間が費やされています。通常、人工知能プロジェクトでは、データの需要は3回程度に分かれています。1回目はプロジェクト開始時の検証段階です。需要は比較的少なく、実現可能性とルールを決定する必要があります。2回目はプロジェクトが正式に開始され、モデルのトレーニングに大量のデータが必要になるときです。3回目はトレーニングと検証が完了した後、目的の目標を達成するために、不十分な領域についてトレーニングセットを補充します。次の図は、人工知能機械学習プロジェクトにおける各タスクの時間の割合を示しています。

人工知能におけるデータ注釈のコストはいくらですか?

データ関連の機械学習コストは、データセットの収集、クリーニング、データのラベル付けなど、主にデータセットに反映されます。 Alegion の依頼で Dimensional Research が実施した新しい調査によると、全組織の 96% がトレーニング データの品質と量に関連する問題を経験しています。同じ調査では、ほとんどのプロジェクトでは、良好なパフォーマンスを得るために 100,000 を超えるデータ サンプルが必要であることが示されました。

Dimensional Research のこのグラフは、企業がデータに関して直面する最も一般的な問題のいくつかを示しています。

まだデータがない場合は、約 1 時間で 5 ~ 10 個のサンプルを収集して注釈を付けることができると想定できます。 Amazon の Mechanical Turk のようなサービスを使用してプロジェクトプロセス全体を検証すると、100,000 件の適格な例のデータセットを生成するのに約 70,000 ドルのコストがかかります。

すでに大量のデータを収集している場合は、専門的なデータ注釈サービス会社を利用して注釈を付けることができます。この場合、100,000 個のラベル付きデータ サンプルを取得するには、注釈の複雑さに応じて 8,000 ~ 80,000 ドルのコストがかかる可能性があります。

さらに、データ サンプルの確認と修正には、データ サンプルの生成と注釈付けと同じくらい時間がかかります。 Dimensional Research の調査によると、66% の企業がデータ セットに偏りやエラーを経験していることがわかりました。完全に社内で行うアプローチ(注釈付けをすべて自社で行う)を選択する企業もあれば、アウトソーシングと社内の組み合わせを選択する企業もあります。 2 番目によくあるシナリオは、作業の大部分を外部委託し、社内の個々の担当者に検証とクリーンアップの責任を負わせることです。 100,000 のデータ サンプルをアウトソーシングする場合の初期コストは、約 2,500 ~ 5,000 ドル追加される可能性があります。

データコストに加えて、アルゴリズムの人件費、コンピューティング機器のコスト、プロジェクト実装コストもあります。アドオンのコストとさまざまな電力消費量を除くと、機械学習プロジェクトには企業あたり 51,750 ~ 136,750 ドルのコストがかかる可能性があります (判断が難しいその他のコストは含みません)。価格差は主にデータによって決まります。これは非常に楽観的な見積もりです。企業が米国に拠点を置き、高品質のデータを使用している場合(フリーランサーはそうしません)、人材関連のコストが急騰し、AI 機械学習プロジェクトのコストは 108,500 ドルを超えます。

この高価格により、新たな問題を解決したりプロセスを自動化したりすることが困難になります。個人、小規模チーム、スタートアップには意思決定を行う余裕がありません。

データ処理で最も難しい部分は何ですか?

最も難しいステップは最初のステップ、つまりデータの取得です。データがなければ、研究段階で機械学習ソリューションを検証することはほぼ不可能であり、プロジェクトの進行はほぼ不可能になります。

工業、医療、セキュリティ、教育、金融などの業界は、将来の業界の変化に対する人工知能の重要性を認識し、それぞれが市場に参入して独自の人工知能アプリケーションを開発しています。しかし、これらの分野ではデータの機密性とデータセキュリティにますます注意が払われているため、これらの要因により人工知能研究の民営化が進む可能性があります。人工知能が徐々に民営化されつつあるのは事実です。こうした環境の中で、データラベリングサービス、トレーニングモデルプラットフォーム、コンピューティングパワー機器などはすべて、民間展開のための独自のソリューションを開発してきました。

<<:  深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

>>:  100万個のニューロンをリアルタイムでスキャンできるようになりました。脳細胞活動の画像化における新たなブレークスルーです。

ブログ    
ブログ    
ブログ    

推薦する

企業が機械学習で犯す5つの間違い

機械学習技術の発展により、企業内のさまざまな構造化コンテンツや非構造化コンテンツから、より多くの情報...

大企業に必須の、偉大な神からのオープンソースアルゴリズムツールブック

近年、大企業への入社要件はますます高くなり、アルゴリズムに対する要求も徐々に高まっています。アルゴリ...

Apple が MobileViT を提案: モバイル デバイス向けの軽量で低遅延のビジュアル トランスフォーマー

この論文では、Apple の研究者がモバイル デバイス用の軽量な汎用ビジュアル トランスフォーマーで...

OpenAIがChatGPTをアップデート:画像と音声入力をサポート

最近、OpenAI は ChatGPT の新バージョンのリリースを発表し、音声入力と画像入力という ...

...

ナレッジグラフは人気があります。今すぐ選んでみませんか。

[51CTO.comより引用] モバイルインターネットの発展に伴い、あらゆるものの相互接続が可能に...

会話型AIが発展途上国の経済をどう変えるか

テクノロジーは商品の売買方法を変えました。電子商取引の発展により、トレーダーは世界中のほぼどこでも、...

プライベートUNIT学習ノート - 対話システムの構築を簡単に始めることができます

対話システムの構築は比較的専門的で複雑なプロセスであり、通常は 3 つの主要な段階に分かれています。...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

...

自動運転のためのリアルタイム測位技術の詳細説明

1 概要自動運転車 (AV) が安全で効率的な運転を実現するには、リアルタイムで正確かつ堅牢な位置特...

GoogleはBingの検索アルゴリズムを評価する研究開発チームを設立、創設者が戦いを監督

北京時間6月15日朝のニュースで、事情に詳しい関係者は、グーグルがマイクロソフトの新しい検索エンジン...

物流業界における人工知能の応用と発展の動向の概要

北京科技大学機械工学部物流工学科羅磊、趙寧人工知能(AI)は、人間の知能をシミュレート、拡張、拡大す...

...

...