AI企業が成熟していくにつれて、高品質なデータの競争は業界で最も激しい戦いの一つとなっており、MercorやSurgeなどの会社を生み出してきた。その中でも特に注目を集めたのは、Alexandr Wangによって設立されたScale AIである。しかし現在、Wangはメタ(Meta)のAI事業を担当しており、多くの投資家が、トレーニングデータの収集において説得力のある新しい戦略を持つ企業に資金を提供する機会を見出している。

Y Combinatorの卒業生であるDatacurveもそのような企業の一つであり、ソフトウェア開発向けに高品質なデータを専門としている。木曜日、同社は1500万ドルのAラウンドファイナンスを完了したと発表し、ChemistryのMark Goldbergがリードインベスターを務め、DeepMind、Vercel、Anthropic、OpenAIの従業員も参加した。以前には270万ドルのシードラウンドファイナンスも完了しており、前コインベースCTOのBalaji Srinivasanも投資に加わっている。

投資、融資、お金

Datacurveは、難易度の高いデータセットを取得するために熟練したソフトウェアエンジニアを引きつける「報酬ハンター」システムを採用している。この会社はこれらの貢献に対して報酬を支払っており、これまでに100万ドル以上の報酬を配布している。

しかし共同創業者のSerena Geによると、最大の動機は金銭ではない。ソフトウェア開発のような高価値サービスにおいて、データ作業の報酬は常に従来の雇用関係よりもはるかに低いため、会社にとって最も重要な優位性はポジティブなユーザー体験である。

Geは、「私たちはこれを消費製品として扱い、データラベリング作業とは考えていません」と述べた。彼らは、興味を持ち、プラットフォームに登録したい人を惹きつけるために、どのように最適化すればよいかを多くの時間をかけて考慮している。

これは、トレーニング後のデータ需要がより複雑になる今こそ特に重要である。初期のモデルは単純なデータセットでトレーニングされていたが、今日のAI製品は複雑な強化学習環境に依存しており、それらは特定的かつ戦略的なデータ収集によって構築される必要がある。環境がさらに複雑になるにつれて、データ要求は量と質の両面でさらに厳しくなるため、このような高品質なデータ収集会社であるDatacurveにとって有利な条件となる可能性がある。

現在、Datacurveは早期の段階にあり、ソフトウェアエンジニアリング分野に焦点を当てているが、Geはこのモデルが金融、マーケティング、さらには医療分野にも適用可能であると述べている。

Geは、「私たちは現在、トレーニング後のデータ収集のためにインフラストラクチャを作り上げています。それぞれの分野での優れた人材を引きつけ、維持するためのものです」と説明している。