企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同じくらい高い」という光景がありましたが、現在ではデータは業界の大物たちの間では必戦事項となっており、その人気は「紙は洛陽と同じくらい高い」に匹敵します。

ビッグデータの波の到来により、ビッグデータ企業が雨後の筍のように出現しました。私の周りのほとんどの人はビッグデータについて語っていますが、ビッグデータはまるで大企業に必要なだけでなく、中小企業にも「利益」をもたらす「万能薬」であるかのように思われます。

[[224722]]

しかし、ビッグデータの奔流に飛び込む企業がますます増えるにつれ、スタートアップ企業も大企業も大量のデータを収集していると主張していることが見落とされがちです。中にはテラバイトレベルのデータもあれば、米国議会図書館の全情報よりも多くのデータを持つ企業もあります。しかし、量だけでは「データの堀」を築くことができないことがよくあります。

まず、生のデータは、問題を解決するために使用されるデータほど価値がありません。これは公開市場でも見られます。データのアグリゲーターや販売者として活動する企業 (Nielsen や Acxiom など) は、データやアルゴリズム、機械学習対応製品を開発する企業 (Netflix や Facebook など) よりもはるかに低い価格で評価されています。

現在の世代の AI スタートアップはこの違いを認識しており、機械学習モデルを使用して収集したデータから価値を抽出しています。しかし、データを使用して機械学習ベースのソリューションを強化する場合でも、データセットのサイズは 1 つの側面にすぎません。

アプリケーションによっては、顧客に価値を提供するためにモデルを高い精度でトレーニングする必要があるものもあれば、まったくデータを必要としないものもあります。データセットには完全に独自のものもあれば、いつでもコピーできるものもあります。データの価値は時間の経過とともに低下しますが、永続的な価値を持つものもあります。

「データ要件」の定義

機械学習アプリケーションでは、エンドユーザーに価値ある機能を提供するために、さまざまな量のデータが必要になる場合があります。

MAP 閾値

クラウド時代では、初期の顧客を獲得するのに十分な価値のあるソフトウェア機能である、最小限の実行可能な製品 (MVP) の概念が普及してきました。インテリジェンスの時代では、データとモデルに関して同様の状況が見られます。つまり、採用を正当化するために必要な正確なインテリジェンスの最大レベル、つまり最大アルゴリズム パフォーマンス (MAP) です。

ほとんどのアプリケーションでは、価値を生み出すために 100% の精度は必要ありません。たとえば、医師向けの生産性向上ツールは、最初は電子医療記録システムにデータを入力するプロセスを簡素化しますが、時間が経つにつれて、医師がシステムにデータを入力する方法を学習して、そのデータ入力を自動化できるようになります。この場合、アプリケーションは最初からソフトウェア機能のみに基づいて価値があるため、MAP はゼロになります。ただし、AI が製品の中核となるソリューション (CT スキャンで脳卒中を検出するツールなど) では、既存の (人間ベースの) ソリューションと同等の精度が必要になる場合があります。この場合、MAP は放射線科医と同等の性能を発揮する必要があり、市場に投入されるまでに大量のデータが必要になる可能性があります。

パフォーマンスしきい値

すべての問題がほぼ完璧な精度で解決できるわけではありません。一部の問題は複雑すぎるため、現在のレベルでは完全にモデル化することができません。この場合、データを追加するとモデルのパフォーマンスが徐々に向上する可能性がありますが、すぐに収穫逓減に達します。

その反対に、モデル化される問題が比較的単純で、追跡する次元が少なく、結果があまり変わらないため、一部の問題は非常に小さなトレーニング セットを使用してほぼ最大の精度で解決できます。

つまり、問題を効果的に解決するために必要なデータの量は大きく異なります。実現可能なレベルの精度に到達するために必要なトレーニング データの量をパフォーマンスしきい値と呼びます。

AI による契約処理は、パフォーマンスしきい値が低いアプリケーションの代表的な例です。契約には何千種類もの異なる種類がありますが、ほとんどの契約には、関係する当事者、交換される価値項目、および時間枠という重要な側面が共通しています。住宅ローン申請書や賃貸契約書などの特定の文書は、規制に準拠するために高度に標準化されています。いくつかのスタートアップ企業では、文書を自動的に処理するアルゴリズムでは、許容できる精度を達成するために数百の例をトレーニングするだけで十分であることがわかっています。

起業家は慎重にバランスを取る必要がある。パフォーマンスのしきい値が高ければ、製品の開発、顧客の使用促進、およびさらなるデータの収集に十分なデータを取得するというローンチの問題に遭遇します。しきい値が低すぎると、データの堀を構築できません。

安定性の閾値

機械学習モデルは、それが表す現実世界の環境から取得した例に基づいてトレーニングされます。時間の経過とともに条件が徐々にまたは突然変化し、モデルがそれに応じて変化しない場合、モデルは劣化します。言い換えれば、モデルの予測は信頼できなくなります。

たとえば、Constructor.io は機械学習を使用して e コマース サイトの検索結果をランク付けするスタートアップです。システムは、顧客が検索結果をどのようにクリックするかを観察し、そのデータを使用して将来の検索結果の順序を予測します。しかし、電子商取引の製品カタログは常に変化しています。モデルがすべてのクリックを平等に扱ったり、特定の期間のデータ セットのみでトレーニングしたりすると、古い製品の価値を過大評価し、新しく発売された現在人気のある製品の価値を過小評価する可能性が高くなります。

モデルを安定させるには、環境の変化と同じ速度で新しいトレーニング データを取り込む必要があります。このデータ取得率を安定性しきい値と呼びます。

簡単に古くなるデータでは、強固なデータの堀を構築することはできません。一方、安定性の閾値が低い場合、豊富で新鮮なデータへの長期的なアクセスが参入障壁として高くなる可能性があります。

長期的に防御できる機会を特定する

MAP、パフォーマンスしきい値、安定性しきい値は、強固なデータ防御壁を見つけるための中核要素です。

先発者は新しい製品カテゴリーに参入するための MAP が低いかもしれませんが、いったんカテゴリーを創設してリーダーになれば、将来の参入者に対するハードルは先発者よりも低くなければなりません。

パフォーマンスしきい値に到達し、そのパフォーマンス (安定性しきい値) を維持するために必要なデータが少ないドメインは、あまり防御力が高くありません。新規参入者は常に、あなたのソリューションに匹敵するかそれを上回るだけの十分なデータを蓄積することができます。一方、パフォーマンスしきい値が低い(多くのデータが必要ない)および安定性しきい値が低い(データが急速に劣化する)問題を解決する企業は、競合他社よりも早く新しいデータを取得することで、依然として防壁を築くことができます。

強力なデータ防御の要素

AI 投資家は、データセットを「公開データ」と「独自データ」という流行語で分類することがよくありますが、データの堀の強さには、次のような多くの側面が関係します。

•アクセシビリティ。

• 時間– データはどのくらいの速さで蓄積され、モデルで使用できますか?データには即座にアクセスできますか?それとも、取得と処理に多くの時間がかかりますか?

• コスト– このデータを取得するにはどれくらいの費用がかかりますか?データユーザーはライセンス権に対して料金を支払ったり、データにラベルを付ける人に料金を支払ったりする必要がありますか?

• 一意性– 同様のデータが広く利用可能であり、他の人が後でモデルを構築して同じ結果を得ることができるか?このいわゆる独自データは、求人情報、秘密保持契約やローン申請書などのすぐに入手できる文書、人の顔画像など、「コモディティ化されたデータ」と表現した方がよいかもしれません。

• 次元性– データ セットはいくつの異なる属性を記述しますか?これらの特性の多くは問題解決に関連していますか?

• 幅– 属性の値はどのくらい幅広く変化するか?データセットでは、個々のケースやまれな例外が考慮されていますか?多くの顧客からのデータや学習内容を集約して、1 人の顧客からのデータよりも広範囲にカバーすることはできますか?

• 消耗性– データは時間の経過とともにどの程度広く適用可能か?このデータでトレーニングされたモデルは長期にわたって耐久性がありますか、それとも定期的に更新する必要がありますか?

• 好循環– パフォーマンス フィードバックや予測精度などの結果を、アルゴリズムを改善するための入力として使用できますか?時間の経過とともにパフォーマンスは向上しますか?

***

ソフトウェア定義の時代では、企業が長期的な競争上の優位性を築くために、データの堀がこれまで以上に重要になっています。テクノロジー大手がクラウド コンピューティングの顧客を引き付けるために AI ツールキットを推進する中、データ セットは差別化を図る最も重要な方法の 1 つです。真に防御力の高いデータの堀は、単に大量のデータを集めることから生まれるのではなく、顧客の問題を解決するにつれて価値が増す独自の新しいデータを使用して、特定の問題領域に結び付けられることから生まれます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

【編集者のおすすめ】

  1. テクノロジーから戦略、経営まで: CIOの知識の世界の進化を見てみましょう
  2. 金融詐欺を未然に防ぎましょう!不正防止分野における人工知能の応用シナリオを見る
  3. 新しい小売業の観点から新しいサービスを定義する:テクノロジーは究極の生産性である
  4. MES 実装で最も恐ろしいのは需要の変化です。
  5. 製造能力の共有は製造業の発展において重要なトレンドになるでしょうか?

<<:  【ディープラーニング連載】畳み込みニューラルネットワーク(CNN)の原理を徹底解説(I) - 基本原理

>>:  インターネット業界における顔認識機能の認知に関する調査報告書

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

于聖奇:顔認識技術のリスクと法的規制

デジタル時代の到来により、顔認識技術の開発は大きく進歩しました。顔認識技術は普及し、多くの分野で広く...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

5G の商用化が加速しています。これはドローンにとって何を意味するのでしょうか?

今年に入ってから、わが国の5G開発は加速しており、各地の5G建設は設定された目標を完了し、5G商用化...

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声...

...

ドローンが小型化するにつれて、その開発が成熟するためには3つの点を考慮する必要があります。

近年、コア技術の継続的な進歩と市場需要の継続的な解放により、ドローン産業は急速に発展しています。アプ...

マイクロソフトがローブを買収:一般の人々が人工知能を簡単に利用できるように

マイクロソフトは、人工知能はテクノロジー大手が反体制派を排除するための武器として利用されるべきではな...

2021年、ついにスマートグラスの普及が到来

[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...

GenAI時代のサイバー軍拡競争を生き残る方法

GenAIの急速な出現はすでにサイバーセキュリティに大きな変化をもたらし、各国政府に対策を取らせてお...

サイバーセキュリティにおける人工知能の役割

人工知能(AI)が社会に普及するにつれ、サイバーセキュリティの分野にも参入してきました。 AI は、...

...

AIと新技術が商業用不動産投資に革命を起こす

商業用不動産業界は進化を遂げており、人工知能 (AI) などのテクノロジーが、このダイナミックな市場...

IoT、AI、ブロックチェーンがビジネス経済を変革する

ビジネスとテクノロジーの世界のつながりは非常に強いため、テクノロジーの発展が次の段階に進むたびに、ビ...

GPT-X に基づく製品コピーライティングと画像生成の実践

I. はじめに1. 2022年末に人気が高まったOpenAIとAIGC 2022年はAIの歴史におい...

知っておくべき6種類のニューラルネットワーク

[51CTO.com クイック翻訳]ニューラルネットワークは人工知能の分野で非常に人気が高まっていま...