生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手できない場合は失敗する可能性がある。これは難しい作業です。なぜなら、特に大規模な言語モデルを開発する場合、大企業は独自のデータをスタートアップと共有することに消極的であることが多いからです。

「多くの企業がAIの優れたアプリケーションを求めていますが、強力なアプリケーションを構築するためのデータにアクセスできないことが多く、ビジネスで競争力を高めるのに役立つ独自のデータにアクセスできないことがよくあります」と、ベンチャーキャピタル会社プライマリー・ベンチャー・パートナーズの共同創設者兼ゼネラルパートナーであるブラッド・スヴルルガ氏は語った。

これまで以上に、正しいデータを持つことが大切になっています。投資会社ブルペン・キャピタルの常駐最高技術責任者ポール・ティマ氏は、実際のモデルの開発が商業化されるようになった今、真の価値はデータにあると語った。

PitchBookによると、生成AIスタートアップへのベンチャーキャピタル投資は昨年48億ドルだったが、今年最初の5か月間ですでに127億ドルに達している。現在、これらの企業の多くは、金融やヘルスケアなどの分野でよりニッチな AI モデルの構築を目指していますが、それらの分野でトレーニングデータセットを入手するのは簡単ではありません。

AI スタートアップの中には、豊富なデータを持つ大企業との提携を目指すところもあります。例えば、EYの税務担当グローバル副社長であるマーナ・リッカー氏は、同社には膨大な取引データが蓄積されているため、生成型人工知能を開発するスタートアップ企業から毎日問い合わせがあると語った。しかし、EYの顧客サービス担当グローバルマネージングパートナーであるアンディ・ボールドウィン氏は、EYのデータが外部モデルのトレーニングに使用された場合に何が起こるかを懸念していると述べた。

「データの所有者は誰なのか？モデルをトレーニングする際のアクセス権限は何か？他の人はそのモデルをどのように使用できるのか？」とボールドウィン氏は語った。「データも私たちの知的財産の一部です。」

スタートアップ企業は、各顧客のデータを使用して異なるモデルをトレーニングできるため、知的財産の問題を回避できます。スタートアップ企業の TermSheet は、この戦略を使用して、不動産開発業者、ブローカー、投資家の業界の質問に答えることができる生成 AI モデルである Ethan を構築しています。しかし、顧客にこれに同意してもらうことさえ面倒な場合があると、TermSheetの最高経営責任者兼共同創設者のロジャー・スミス氏は述べた。

リーガルテクノロジー企業 Logikcull の共同創設者兼 CEO である Andy Wilson 氏は、優れたサイバーセキュリティを備え、データを効果的に保護できることを企業に納得させることも課題であると考えています。

プライマリー・ベンチャー・パートナーズのスヴォルーガ氏は、大手テクノロジー企業は、自社のデータを安心して取り扱う大手顧客の信頼をすでに得ているため、生成型AIアプリケーションの開発において新興企業よりも有利かもしれないと述べた。

金融サービス会社トゥルーイストの最高データ責任者、トレイシー・ダニエルズ氏は、AIのユースケースを模索する際には、現在はスタートアップ企業ではなく大手テクノロジーベンダーとのみ協力していると述べた。ダニエルズ氏は、大手ベンダーの方がデータセキュリティをより確実に確保できると考えています。

つまり、公開データから優位性を得ているスタートアップ企業であっても、企業のデータセットを使用してモデルを充実させるという課題に直面することになります。人工知能のスタートアップ企業 Veesual は、ユーザーが服を試着している画像を生成できる。同社は当初、インターネット上の公開画像を使用してモデルをトレーニングしたが、結果を向上させるために大手小売業者に独自のデータを引き渡すよう求めるのは困難だった。

ヴィージュアルの最高経営責任者（CEO）兼共同創業者のマキシム・パテ氏は、大手小売業者がデータの使用に対して多額の支払いや同社の株式を要求したケースもあったが、最終的にはそうした取引は成立しなかったと述べた。

PatentPal は、法律事務所による特許出願書類の作成を支援する生成 AI スタートアップです。最高経営責任者兼創業者のジャック・シュー氏は、同社は公開されている特許出願書類を使ってモデルを訓練したと語った。暗号化または匿名化された実際の顧客フィードバックによる継続的なトレーニングにより、ツールの精度がさらに向上する可能性があると彼は述べた。しかし、フィードバックは企業秘密などの機密性の高いデータから分離する必要があるため、プロセスは複雑です。

「初期段階のスタートアップにとって、一つはブランド認知の問題であり、もう一つは社会的認知の問題だ」と彼は語った。

同時に、プレッシャーも高まっています。ストラック・キャピタルの創業者兼マネージング・パートナーであるアダム・ストラック氏は、一部のスタートアップ企業は特定の市場セグメントに関するデータをより早く、より多く入手しようと競争していると語った。

「独占的なデータセットがあるとわかれば、他社より先にそれを手に入れ、独占権を交渉したいと思うだろう」とストラック氏は言う。「そういう意味では、ほとんど軍拡競争になる」

<<: MetaチーフAIサイエンティストLeCun Yang氏：ChatGPTは犬ほど賢くない

>>: