よりスケーラブルになるにはどうすればよいでしょうか?

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

機械学習は誰もが念頭に置いている大きな目標となっており、80% 以上の企業が少なくとも 1 つの AI プロジェクトに取り組んでいます。

[[322115]]

画像ソース: unsplash

始める前に、次の 3 つの質問を自分に問いかけるのが最善です。

  • 「この機械学習モデルの精度はどれくらいですか?」
  • 「トレーニングにはどれくらい時間がかかりますか?」
  • 「どれくらいのトレーニングデータが必要ですか?」

多くの場合、ユーザーは新しいモデルの導入にどれくらいの時間がかかるか、そのモデルがどの程度パフォーマンスや一般化に優れているかを知りたいと考えており、全体的なコストとパフォーマンスを比較して測定する方法を求めています。しかし残念ながら、上記の質問に対する答えではこの問題は解決されません。

誤解を招く可能性もあります。

モデルのトレーニングは氷山の一角にすぎません。適切なデータセットの取得、クリーニング、保存、集約、ラベル付け、信頼性の高いデータフローとインフラストラクチャ パイプラインの構築にかかる膨大なコストは、ほとんどのユーザーや AI/ML 企業によって見過ごされています。

最近の調査によると、企業は AI/ML プロジェクトにおけるデータの準備とエンジニアリングに 80% 以上の時間を費やしています。言い換えれば、ほとんどの労力がモデルの構築とトレーニングに集中する場合、エンジニアリングの総労力とコストは予想の 5 倍になる可能性があります。

さらに、機械学習により、ユーザーとソフトウェア開発者の境界が曖昧になります。

AIaaS や MLaaS が登場し始めています。データが増えるにつれて、クラウド内のモデルは改善され続けます。このため、MLaaS ビジネスは SaaS よりも困難です。

出典: バスティアン・ホアン

機械モデルはトレーニング データから学習するため、高品質のデータがなければモデルのパフォーマンスは低下します。ほとんどの場合、ユーザーは適切なデータセットを生成または注釈付けするためのベストプラクティスを認識していません。

システムのパフォーマンスが悪い場合、ユーザーはモデルのせいにする傾向があります。その結果、AI/ML 企業は通常、データ品質を確保するためにユーザーのトレーニングや作業に多くの時間とリソースを費やしており、これは AI 企業とその顧客の間で共有される責任になります。

たとえば、生産ラインで欠陥検査モデルをトレーニングするには、コンピューター ビジョン企業が顧客と協力してカメラを適切な角度と位置に取り付け、解像度とフレーム レートをチェックし、各シーンに十分な数の正と負のトレーニング サンプルがあることを確認する必要があります。

ロボットや自動運転車のアプリケーションを使用したデータ収集は、ある時点でロボットや車両を人間が操作する必要があるため、より時間とコストがかかります。

トレーニング コースを受講し、すべてのユーザー マニュアルとガイドを読んだ後でも、ユーザーが生成するデータを完全に制御することはできません。あるマシンビジョンカメラ会社は、エンジニアがすべてのデータを手作業で検証し、完全に入力されていることを確認していると話していました。

[[322116]]

画像ソース: unsplash

見落とされがちなこれらの追加トレーニング、手動レビュー、データクリーニング、ラベル付けタスクはすべて、AI 企業にとって大きな間接費を生み出す可能性があります。そのため、よりスケーラブルな AI/ML プロジェクトを構築することが重要です。では、この問題をどう解決すればよいのでしょうか?

1. スケーラビリティが重要です。

多数の顧客が購入を検討する適切なユースケースを特定し、同じモデル アーキテクチャを使用して解決します。最後に、標準製品なしで、さまざまな企業向けにさまざまなモデルを構築してトレーニングする必要があります。

2. 可能な限りセルフサービスを提供します。

トレーニングとデータ パイプラインを可能な限り自動化して、運用効率を高め、手作業への依存を減らします。企業は、顧客が目にする機能を社内ツールや自動化よりも優先することがよくありますが、前者はすぐに成果が得られるため、社内プロセスの自動化に十分なリソースを割り当てる必要があります。

3. 最後に、コスト、特に隠れたコストを特定して追跡します。

エンジニアはデータのクリーニング、フィルタリング、集約にどのくらいの時間を費やしていますか? サードパーティによる注釈付けが正しく行われていることを確認するのにどのくらいの時間を費やしていますか? 顧客の環境設定とデータの正しい収集をどのくらいの頻度で支援する必要がありますか? このうちどの程度を自動化またはアウトソーシングできますか?

レベルアップへの道のりは困難で長いかもしれませんが、遅かれ早かれいくつかの問題に直面しなければなりません。

<<:  スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

>>:  機械学習専用サーバーの重要性の高まり

ブログ    
ブログ    
ブログ    

推薦する

紆余曲折の続く教育+AI。舞台裏へのシフトは、巨大企業の拡大に向けた「新たな春」となるのか?

現在、人工知能技術は多くの産業に大きな影響を与えています。その中で、近年最もホットな産業である教育は...

Androidスマートフォンを開くと、画面全体に「Big Model」という3つの単語が表示されます。

最近では、Android メーカーは大きなモデルなしで携帯電話の発表会を開催しようとはしません。 O...

AI イニシアチブを成功させるために必要な 10 のこと

市場で競争上の優位性を獲得する過程で、多くの企業が新興技術の導入に熱心です。しかし、導入を急ぐあまり...

アルゴリズムの改善とハードウェアの反復、どちらがより収益性が高いでしょうか? MITの最新の研究結果がこの答えを提供している

コンピューターが登場する前には、アルゴリズムがありました。コンピュータの誕生により、コンピュータの強...

人工知能で最も人気のあるアルゴリズムトップ10をわかりやすく解説

機械学習は業界にとって革新的で重要な分野です。機械学習プログラムに選択するアルゴリズムの種類は、達成...

ビッグデータと人工知能の関係

[[342758]]人工知能教育は最も美しい新しいインフラです人工知能のアルゴリズムの中にはデータ...

ChatSQL: ChatGPT を有効にしてプレーンテキストで SQL クエリを作成できるようにする

翻訳者 |ブガッティレビュー | Chonglou ChatGPTは2020年6月にリリースされ、 ...

...

人工知能の時代では、プログラマーは排除されるのでしょうか?

よく考えてみると、この質問は少し皮肉に思えます。将来、新しいクリエイター (AI) がクリエイター ...

たった今、アリババが重大な技術的爆弾を発表しました!

人類史上のスーパープロジェクトとは何でしょうか?ピラミッド、万里の長城、ドバイワールドアイランド、三...

...

OpenAIの「クレイジーウィーク」の力はあらゆる分野に影響を及ぼした

先週は間違いなく、OpenAI にとっていつも以上に忙しい週でした。ユーザー数でトップクラスの生成A...

ディープラーニング入門

2016年、Googleの人工知能プログラムAlphaGoが世界的囲碁プレイヤーのイ・セドルと対戦し...

金融分野における機械学習の4つの利点と5つの応用

[[198507]]誰の生活も金融から独立して存在することはできません。テクノロジーの発展により人々...

マルチエージェント強化学習アルゴリズムが機能しないと聞きました。 MAPPOを正しく使用しましたか?

清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...