よりスケーラブルになるにはどうすればよいでしょうか?

よりスケーラブルになるにはどうすればよいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

機械学習は誰もが念頭に置いている大きな目標となっており、80% 以上の企業が少なくとも 1 つの AI プロジェクトに取り組んでいます。

[[322115]]

画像ソース: unsplash

始める前に、次の 3 つの質問を自分に問いかけるのが最善です。

  • 「この機械学習モデルの精度はどれくらいですか?」
  • 「トレーニングにはどれくらい時間がかかりますか?」
  • 「どれくらいのトレーニングデータが必要ですか?」

多くの場合、ユーザーは新しいモデルの導入にどれくらいの時間がかかるか、そのモデルがどの程度パフォーマンスや一般化に優れているかを知りたいと考えており、全体的なコストとパフォーマンスを比較して測定する方法を求めています。しかし残念ながら、上記の質問に対する答えではこの問題は解決されません。

誤解を招く可能性もあります。

モデルのトレーニングは氷山の一角にすぎません。適切なデータセットの取得、クリーニング、保存、集約、ラベル付け、信頼性の高いデータフローとインフラストラクチャ パイプラインの構築にかかる膨大なコストは、ほとんどのユーザーや AI/ML 企業によって見過ごされています。

最近の調査によると、企業は AI/ML プロジェクトにおけるデータの準備とエンジニアリングに 80% 以上の時間を費やしています。言い換えれば、ほとんどの労力がモデルの構築とトレーニングに集中する場合、エンジニアリングの総労力とコストは予想の 5 倍になる可能性があります。

さらに、機械学習により、ユーザーとソフトウェア開発者の境界が曖昧になります。

AIaaS や MLaaS が登場し始めています。データが増えるにつれて、クラウド内のモデルは改善され続けます。このため、MLaaS ビジネスは SaaS よりも困難です。

出典: バスティアン・ホアン

機械モデルはトレーニング データから学習するため、高品質のデータがなければモデルのパフォーマンスは低下します。ほとんどの場合、ユーザーは適切なデータセットを生成または注釈付けするためのベストプラクティスを認識していません。

システムのパフォーマンスが悪い場合、ユーザーはモデルのせいにする傾向があります。その結果、AI/ML 企業は通常、データ品質を確保するためにユーザーのトレーニングや作業に多くの時間とリソースを費やしており、これは AI 企業とその顧客の間で共有される責任になります。

たとえば、生産ラインで欠陥検査モデルをトレーニングするには、コンピューター ビジョン企業が顧客と協力してカメラを適切な角度と位置に取り付け、解像度とフレーム レートをチェックし、各シーンに十分な数の正と負のトレーニング サンプルがあることを確認する必要があります。

ロボットや自動運転車のアプリケーションを使用したデータ収集は、ある時点でロボットや車両を人間が操作する必要があるため、より時間とコストがかかります。

トレーニング コースを受講し、すべてのユーザー マニュアルとガイドを読んだ後でも、ユーザーが生成するデータを完全に制御することはできません。あるマシンビジョンカメラ会社は、エンジニアがすべてのデータを手作業で検証し、完全に入力されていることを確認していると話していました。

[[322116]]

画像ソース: unsplash

見落とされがちなこれらの追加トレーニング、手動レビュー、データクリーニング、ラベル付けタスクはすべて、AI 企業にとって大きな間接費を生み出す可能性があります。そのため、よりスケーラブルな AI/ML プロジェクトを構築することが重要です。では、この問題をどう解決すればよいのでしょうか?

1. スケーラビリティが重要です。

多数の顧客が購入を検討する適切なユースケースを特定し、同じモデル アーキテクチャを使用して解決します。最後に、標準製品なしで、さまざまな企業向けにさまざまなモデルを構築してトレーニングする必要があります。

2. 可能な限りセルフサービスを提供します。

トレーニングとデータ パイプラインを可能な限り自動化して、運用効率を高め、手作業への依存を減らします。企業は、顧客が目にする機能を社内ツールや自動化よりも優先することがよくありますが、前者はすぐに成果が得られるため、社内プロセスの自動化に十分なリソースを割り当てる必要があります。

3. 最後に、コスト、特に隠れたコストを特定して追跡します。

エンジニアはデータのクリーニング、フィルタリング、集約にどのくらいの時間を費やしていますか? サードパーティによる注釈付けが正しく行われていることを確認するのにどのくらいの時間を費やしていますか? 顧客の環境設定とデータの正しい収集をどのくらいの頻度で支援する必要がありますか? このうちどの程度を自動化またはアウトソーシングできますか?

レベルアップへの道のりは困難で長いかもしれませんが、遅かれ早かれいくつかの問題に直面しなければなりません。

<<:  スマートテクノロジーは高齢化問題の解決に役立つでしょうか?

>>:  機械学習専用サーバーの重要性の高まり

ブログ    
ブログ    
ブログ    

推薦する

自動運転車は私たちの生活をどのように変えるのでしょうか?

自動運転車は交通渋滞を改善し、交通事故を減らすだろうが、公共交通機関、不動産市場、健康にもさまざまな...

米国のパイロットがエイリアンの存在を確認!米国は10年間UFOのリバースエンジニアリングを行っており、マスク氏はそれを否定していない

ちょうど昨日、米国議会は、米国政府が不時着したエイリアンの宇宙船とエイリアンの遺体を発見し、それを隠...

人工知能教育とは何ですか?将来の教育の顕著な特徴は何でしょうか?

グローバル情報化教育の時代において、教育モデル、教育内容、学習方法は大きな変化を遂げており、人工知能...

PNASの新研究:ケンブリッジの学者らは、一部のAIモデルは計算できないことを発見した

最近、ケンブリッジ大学の学者たちは、米国科学アカデミー紀要(PNAS)に「安定かつ正確なニューラルネ...

2024 年にソフトウェア開発の生産性を向上させる 10 のベスト AI ツール

2023年までに、AIは複数の業界で広く採用されるようになります。 2024 年までに、ソフトウェア...

2023 年の IT ネットワーク トレンド トップ 10

2023 年には、IT ネットワーキング分野でいくつかの重要なトレンドが流行するでしょう。大まかに...

脳コンピューターインターフェース技術における大きな進歩!麻痺した男性が初めて運動と触覚を取り戻す

[[324403]]図1:2010年に重度の脊髄損傷を負った後、バークハートは運動皮質にマイクロチッ...

...

AIは科学者のツールになり得るか? Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

[[430245]]人工知能(AI)は、専用の研究分野から他の分野のツールへと徐々に移行しており、学...

...

大規模ニューラルネットワークに関する最新の文献のレビュー:効率的な DNN のトレーニングとメモリ使用量の節約

現代のディープラーニングおよび人工知能技術の開発には、ディープニューラルネットワーク (DNN) を...

デフォルトの心配はありません!ファーウェイとSTマイクロエレクトロニクスが共同でチップを設計

ファーウェイにとって、独自のチップを開発することは必ず進むべき道であり、さらなる発展を遂げたいのであ...

テンセントクラウドの「AIスーパーベース」特別セッションがWOTカンファレンスで発表され、技術革新がAIインフラの新たな章を導く

過去2年間、「百機種戦争」は中国で人気の技術トピックになりました。 2020年以降、中国は大型モデル...

...

研究報告によると、GPT-4の「知能」は大幅に低下している

7月20日、スタンフォード大学とカリフォルニア大学バークレー校の研究チームが最近GPT-4の詳細な研...