よりスケーラブルになるにはどうすればよいでしょうか?

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

機械学習は誰もが念頭に置いている大きな目標となっており、80% 以上の企業が少なくとも 1 つの AI プロジェクトに取り組んでいます。

[[322115]]

画像ソース: unsplash

始める前に、次の 3 つの質問を自分に問いかけるのが最善です。

  • 「この機械学習モデルの精度はどれくらいですか?」
  • 「トレーニングにはどれくらい時間がかかりますか?」
  • 「どれくらいのトレーニングデータが必要ですか?」

多くの場合、ユーザーは新しいモデルの導入にどれくらいの時間がかかるか、そのモデルがどの程度パフォーマンスや一般化に優れているかを知りたいと考えており、全体的なコストとパフォーマンスを比較して測定する方法を求めています。しかし残念ながら、上記の質問に対する答えではこの問題は解決されません。

誤解を招く可能性もあります。

モデルのトレーニングは氷山の一角にすぎません。適切なデータセットの取得、クリーニング、保存、集約、ラベル付け、信頼性の高いデータフローとインフラストラクチャ パイプラインの構築にかかる膨大なコストは、ほとんどのユーザーや AI/ML 企業によって見過ごされています。

最近の調査によると、企業は AI/ML プロジェクトにおけるデータの準備とエンジニアリングに 80% 以上の時間を費やしています。言い換えれば、ほとんどの労力がモデルの構築とトレーニングに集中する場合、エンジニアリングの総労力とコストは予想の 5 倍になる可能性があります。

さらに、機械学習により、ユーザーとソフトウェア開発者の境界が曖昧になります。

AIaaS や MLaaS が登場し始めています。データが増えるにつれて、クラウド内のモデルは改善され続けます。このため、MLaaS ビジネスは SaaS よりも困難です。

出典: バスティアン・ホアン

機械モデルはトレーニング データから学習するため、高品質のデータがなければモデルのパフォーマンスは低下します。ほとんどの場合、ユーザーは適切なデータセットを生成または注釈付けするためのベストプラクティスを認識していません。

システムのパフォーマンスが悪い場合、ユーザーはモデルのせいにする傾向があります。その結果、AI/ML 企業は通常、データ品質を確保するためにユーザーのトレーニングや作業に多くの時間とリソースを費やしており、これは AI 企業とその顧客の間で共有される責任になります。

たとえば、生産ラインで欠陥検査モデルをトレーニングするには、コンピューター ビジョン企業が顧客と協力してカメラを適切な角度と位置に取り付け、解像度とフレーム レートをチェックし、各シーンに十分な数の正と負のトレーニング サンプルがあることを確認する必要があります。

ロボットや自動運転車のアプリケーションを使用したデータ収集は、ある時点でロボットや車両を人間が操作する必要があるため、より時間とコストがかかります。

トレーニング コースを受講し、すべてのユーザー マニュアルとガイドを読んだ後でも、ユーザーが生成するデータを完全に制御することはできません。あるマシンビジョンカメラ会社は、エンジニアがすべてのデータを手作業で検証し、完全に入力されていることを確認していると話していました。

[[322116]]

画像ソース: unsplash

見落とされがちなこれらの追加トレーニング、手動レビュー、データクリーニング、ラベル付けタスクはすべて、AI 企業にとって大きな間接費を生み出す可能性があります。そのため、よりスケーラブルな AI/ML プロジェクトを構築することが重要です。では、この問題をどう解決すればよいのでしょうか?

1. スケーラビリティが重要です。

多数の顧客が購入を検討する適切なユースケースを特定し、同じモデル アーキテクチャを使用して解決します。最後に、標準製品なしで、さまざまな企業向けにさまざまなモデルを構築してトレーニングする必要があります。

2. 可能な限りセルフサービスを提供します。

トレーニングとデータ パイプラインを可能な限り自動化して、運用効率を高め、手作業への依存を減らします。企業は、顧客が目にする機能を社内ツールや自動化よりも優先することがよくありますが、前者はすぐに成果が得られるため、社内プロセスの自動化に十分なリソースを割り当てる必要があります。

3. 最後に、コスト、特に隠れたコストを特定して追跡します。

エンジニアはデータのクリーニング、フィルタリング、集約にどのくらいの時間を費やしていますか? サードパーティによる注釈付けが正しく行われていることを確認するのにどのくらいの時間を費やしていますか? 顧客の環境設定とデータの正しい収集をどのくらいの頻度で支援する必要がありますか? このうちどの程度を自動化またはアウトソーシングできますか?

レベルアップへの道のりは困難で長いかもしれませんが、遅かれ早かれいくつかの問題に直面しなければなりません。

<<:  スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

>>:  機械学習専用サーバーの重要性の高まり

ブログ    
ブログ    
ブログ    

推薦する

PyTorch でテンソルを操作するための 5 つの基本関数

ニューラル ネットワークを正確かつ効率的に構築する能力は、ディープラーニング エンジニアの採用担当者...

2024 年のコンテナ技術予測: パフォーマンス、AI、セキュリティの採用

パフォーマンス重視のコンテナ技術向けのツールとサービスを提供する Sylabs は、2024 年まで...

AI業界は大きな変化を遂げています。AI科学者がMVPになるには

20 年前、人工知能の研究に興味を持つ人は、主に大学や非営利の AI 研究所に限られていました。 A...

...

このスタートアップは、アイドル状態のGPUを分散ネットワークに接続することで、AIモデルのトレーニングコストを90%削減できると主張している。

モンスターAPIは、採掘機器などのGPUコンピューティングパワーを使用してAIモデルをトレーニングし...

SDNアプリケーションルーティングアルゴリズムを実装するためのツールであるNetworkx

SDN (ソフトウェア定義ネットワーク) は、集中制御プレーンを通じてデータ層転送やその他の操作を...

人工知能を理解するのに役立つ記事(画像付き)

近年、人工知能(AI)が普及するにつれ、その原理を理解できずにAIを迷信し崇拝する人が増えています。...

データと人工知能の整合性をどのように確保するか?

2022 年、データと AI はデジタル革命の新たな章の基盤を築き、ますます多くのグローバル企業に...

量子もつれによりホログラムが生成されます。物体は画像を形成するために光を放射する必要はありません。

新たな研究によると、量子力学は科学者が物体から光を捉えることなくホログラムを生成するのに役立つ可能性...

...

製造業における人工知能の活用事例トップ 5

製造業は大きなデジタル変革を遂げています。従来のモデルはインダストリー 4.0 へと進化しています。...

...

ニューラル ネットワーク アルゴリズムを使用した C# での手書き数字認識

デモをダウンロード - 2.77 MB (元のアドレス)手書き文字認識.zipソースコードをダウンロ...

BEVFusionを超えて! Lift-Attend-Splat: 最新の BEV LV 融合ソリューション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...