企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同じくらい高い」という光景がありましたが、現在ではデータは業界の大物たちの間では必戦事項となっており、その人気は「紙は洛陽と同じくらい高い」に匹敵します。

ビッグデータの波の到来により、ビッグデータ企業が雨後の筍のように出現しました。私の周りのほとんどの人はビッグデータについて語っていますが、ビッグデータはまるで大企業に必要なだけでなく、中小企業にも「利益」をもたらす「万能薬」であるかのように思われます。

[[224722]]

しかし、ビッグデータの奔流に飛び込む企業がますます増えるにつれ、スタートアップ企業も大企業も大量のデータを収集していると主張していることが見落とされがちです。中にはテラバイトレベルのデータもあれば、米国議会図書館の全情報よりも多くのデータを持つ企業もあります。しかし、量だけでは「データの堀」を築くことができないことがよくあります。

まず、生のデータは、問題を解決するために使用されるデータほど価値がありません。これは公開市場でも見られます。データのアグリゲーターや販売者として活動する企業 (Nielsen や Acxiom など) は、データやアルゴリズム、機械学習対応製品を開発する企業 (Netflix や Facebook など) よりもはるかに低い価格で評価されています。

現在の世代の AI スタートアップはこの違いを認識しており、機械学習モデルを使用して収集したデータから価値を抽出しています。しかし、データを使用して機械学習ベースのソリューションを強化する場合でも、データセットのサイズは 1 つの側面にすぎません。

アプリケーションによっては、顧客に価値を提供するためにモデルを高い精度でトレーニングする必要があるものもあれば、まったくデータを必要としないものもあります。データセットには完全に独自のものもあれば、いつでもコピーできるものもあります。データの価値は時間の経過とともに低下しますが、永続的な価値を持つものもあります。

「データ要件」の定義

機械学習アプリケーションでは、エンドユーザーに価値ある機能を提供するために、さまざまな量のデータが必要になる場合があります。

MAP 閾値

クラウド時代では、初期の顧客を獲得するのに十分な価値のあるソフトウェア機能である、最小限の実行可能な製品 (MVP) の概念が普及してきました。インテリジェンスの時代では、データとモデルに関して同様の状況が見られます。つまり、採用を正当化するために必要な正確なインテリジェンスの最大レベル、つまり最大アルゴリズム パフォーマンス (MAP) です。

ほとんどのアプリケーションでは、価値を生み出すために 100% の精度は必要ありません。たとえば、医師向けの生産性向上ツールは、最初は電子医療記録システムにデータを入力するプロセスを簡素化しますが、時間が経つにつれて、医師がシステムにデータを入力する方法を学習して、そのデータ入力を自動化できるようになります。この場合、アプリケーションは最初からソフトウェア機能のみに基づいて価値があるため、MAP はゼロになります。ただし、AI が製品の中核となるソリューション (CT スキャンで脳卒中を検出するツールなど) では、既存の (人間ベースの) ソリューションと同等の精度が必要になる場合があります。この場合、MAP は放射線科医と同等の性能を発揮する必要があり、市場に投入されるまでに大量のデータが必要になる可能性があります。

パフォーマンスしきい値

すべての問題がほぼ完璧な精度で解決できるわけではありません。一部の問題は複雑すぎるため、現在のレベルでは完全にモデル化することができません。この場合、データを追加するとモデルのパフォーマンスが徐々に向上する可能性がありますが、すぐに収穫逓減に達します。

その反対に、モデル化される問題が比較的単純で、追跡する次元が少なく、結果があまり変わらないため、一部の問題は非常に小さなトレーニング セットを使用してほぼ最大の精度で解決できます。

つまり、問題を効果的に解決するために必要なデータの量は大きく異なります。実現可能なレベルの精度に到達するために必要なトレーニング データの量をパフォーマンスしきい値と呼びます。

AI による契約処理は、パフォーマンスしきい値が低いアプリケーションの代表的な例です。契約には何千種類もの異なる種類がありますが、ほとんどの契約には、関係する当事者、交換される価値項目、および時間枠という重要な側面が共通しています。住宅ローン申請書や賃貸契約書などの特定の文書は、規制に準拠するために高度に標準化されています。いくつかのスタートアップ企業では、文書を自動的に処理するアルゴリズムでは、許容できる精度を達成するために数百の例をトレーニングするだけで十分であることがわかっています。

起業家は慎重にバランスを取る必要がある。パフォーマンスのしきい値が高ければ、製品の開発、顧客の使用促進、およびさらなるデータの収集に十分なデータを取得するというローンチの問題に遭遇します。しきい値が低すぎると、データの堀を構築できません。

安定性の閾値

機械学習モデルは、それが表す現実世界の環境から取得した例に基づいてトレーニングされます。時間の経過とともに条件が徐々にまたは突然変化し、モデルがそれに応じて変化しない場合、モデルは劣化します。言い換えれば、モデルの予測は信頼できなくなります。

たとえば、Constructor.io は機械学習を使用して e コマース サイトの検索結果をランク付けするスタートアップです。システムは、顧客が検索結果をどのようにクリックするかを観察し、そのデータを使用して将来の検索結果の順序を予測します。しかし、電子商取引の製品カタログは常に変化しています。モデルがすべてのクリックを平等に扱ったり、特定の期間のデータ セットのみでトレーニングしたりすると、古い製品の価値を過大評価し、新しく発売された現在人気のある製品の価値を過小評価する可能性が高くなります。

モデルを安定させるには、環境の変化と同じ速度で新しいトレーニング データを取り込む必要があります。このデータ取得率を安定性しきい値と呼びます。

簡単に古くなるデータでは、強固なデータの堀を構築することはできません。一方、安定性の閾値が低い場合、豊富で新鮮なデータへの長期的なアクセスが参入障壁として高くなる可能性があります。

長期的に防御できる機会を特定する

MAP、パフォーマンスしきい値、安定性しきい値は、強固なデータ防御壁を見つけるための中核要素です。

先発者は新しい製品カテゴリーに参入するための MAP が低いかもしれませんが、いったんカテゴリーを創設してリーダーになれば、将来の参入者に対するハードルは先発者よりも低くなければなりません。

パフォーマンスしきい値に到達し、そのパフォーマンス (安定性しきい値) を維持するために必要なデータが少ないドメインは、あまり防御力が高くありません。新規参入者は常に、あなたのソリューションに匹敵するかそれを上回るだけの十分なデータを蓄積することができます。一方、パフォーマンスしきい値が低い(多くのデータが必要ない)および安定性しきい値が低い(データが急速に劣化する)問題を解決する企業は、競合他社よりも早く新しいデータを取得することで、依然として防壁を築くことができます。

強力なデータ防御の要素

AI 投資家は、データセットを「公開データ」と「独自データ」という流行語で分類することがよくありますが、データの堀の強さには、次のような多くの側面が関係します。

•アクセシビリティ。

• 時間– データはどのくらいの速さで蓄積され、モデルで使用できますか?データには即座にアクセスできますか?それとも、取得と処理に多くの時間がかかりますか?

• コスト– このデータを取得するにはどれくらいの費用がかかりますか?データユーザーはライセンス権に対して料金を支払ったり、データにラベルを付ける人に料金を支払ったりする必要がありますか?

• 一意性– 同様のデータが広く利用可能であり、他の人が後でモデルを構築して同じ結果を得ることができるか?このいわゆる独自データは、求人情報、秘密保持契約やローン申請書などのすぐに入手できる文書、人の顔画像など、「コモディティ化されたデータ」と表現した方がよいかもしれません。

• 次元性– データ セットはいくつの異なる属性を記述しますか?これらの特性の多くは問題解決に関連していますか?

• 幅– 属性の値はどのくらい幅広く変化するか?データセットでは、個々のケースやまれな例外が考慮されていますか?多くの顧客からのデータや学習内容を集約して、1 人の顧客からのデータよりも広範囲にカバーすることはできますか?

• 消耗性– データは時間の経過とともにどの程度広く適用可能か?このデータでトレーニングされたモデルは長期にわたって耐久性がありますか、それとも定期的に更新する必要がありますか?

• 好循環– パフォーマンス フィードバックや予測精度などの結果を、アルゴリズムを改善するための入力として使用できますか?時間の経過とともにパフォーマンスは向上しますか?

***

ソフトウェア定義の時代では、企業が長期的な競争上の優位性を築くために、データの堀がこれまで以上に重要になっています。テクノロジー大手がクラウド コンピューティングの顧客を引き付けるために AI ツールキットを推進する中、データ セットは差別化を図る最も重要な方法の 1 つです。真に防御力の高いデータの堀は、単に大量のデータを集めることから生まれるのではなく、顧客の問題を解決するにつれて価値が増す独自の新しいデータを使用して、特定の問題領域に結び付けられることから生まれます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

【編集者のおすすめ】

  1. テクノロジーから戦略、経営まで: CIOの知識の世界の進化を見てみましょう
  2. 金融詐欺を未然に防ぎましょう!不正防止分野における人工知能の応用シナリオを見る
  3. 新しい小売業の観点から新しいサービスを定義する:テクノロジーは究極の生産性である
  4. MES 実装で最も恐ろしいのは需要の変化です。
  5. 製造能力の共有は製造業の発展において重要なトレンドになるでしょうか?

<<:  【ディープラーニング連載】畳み込みニューラルネットワーク(CNN)の原理を徹底解説(I) - 基本原理

>>:  インターネット業界における顔認識機能の認知に関する調査報告書

ブログ    

推薦する

信頼できる GNN を構築するにはどうすればよいでしょうか?最新のレビューはコチラ!信頼できるグラフニューラルネットワーク: 次元、方法、傾向

序文ここ数年、ニューラルネットワークを中心とした人工知能技術は、さまざまな種類のデータを深く掘り下げ...

Google の 10 秒動画生成モデルが世界記録を更新しました。 LLMは拡散モデルを終わらせ、その影響は第2世代のトップを圧倒する

AI ビデオ生成は、2024 年には次の最先端分野になる可能性があります。過去数ヶ月を振り返ると、R...

AI投資を最大限に活用するための6つのステップ

人工知能は、将来の発展にとって大きな破壊的技術の 1 つであるとよく考えられています。これにより、多...

トレンド | AIを学ぶには、まず2018年の人工知能に関する13の予測を理解する必要があります

[[214541]] 2017 年は、ウォール ストリート ジャーナル、フォーブス、フォーチュンなど...

清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

評価基準の違いにより、統一基準に基づく既存の小規模学習法の公平な比較が大きく妨げられており、この分野...

マスク氏は有言実行だ!テスラブランドの人工呼吸器が「納品」、モデル3の部品で製造

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AI分野に新たな学者が加わりました!清華大学の胡世民が選出され、「Jitu」フレームワークは彼の研究室から生まれた

清華大学の胡世民教授が中国科学院の院士に選出されました! 2023年に両アカデミーから新たに選出され...

SQL Server データ マイニング: クラスタリング アルゴリズムとシーケンシャル クラスタリング アルゴリズムの理解

最近、クライアントの開発チームと SQL Server データ マイニングとそのアプリケーションにつ...

Dianping.com における検索関連性技術の探求と実践

著者: Xiaoya、Shen Yuan、Judy など1. 背景レビュー検索は、Dianping ...

...

顔スキャンは便利ですが、隠れた危険も伴うので、注意が必要です。

顔をスキャンするだけで支払いができます。顔をスキャンするだけでさまざまなゲートに出入りできます。顔を...

メディア分野における人工知能の革新は期待に値する

過去 30 年間にわたり、この種のイノベーションの歴史に残る例は数多くありました。ウェブサイト上のメ...

今後 20 年間で、人工知能ロボットが介護士に取って代わり、高齢者の世話をすることになり、介護士よりも信頼できる存在になるでしょう。

人工知能の発達により、数十年、あるいは12年後には、人々は介護者やロボットを使って高齢者の世話をする...

...

人工知能 (AI): 2022 年に注目すべき 7 つのトレンド

2022年は人工知能が実験段階から基礎段階へと移行する年となるでしょう。成熟した技術の重要な指標につ...