Avec l'évolution des entreprises d'intelligence artificielle, la lutte pour les données de haute qualité est devenue l'une des batailles les plus intenses du secteur, donnant naissance à des entreprises comme Mercor et Surge, dont la plus remarquable est Scale AI fondée par Alexandr Wang. Mais aujourd'hui, Wang dirige maintenant l'activité en intelligence artificielle de Meta, et nombreux sont les investisseurs qui voient une opportunité, prêts à financer des entreprises qui disposent de stratégies nouvelles et convaincantes pour collecter des données d'entraînement.
Datacurve, une entreprise issue du programme Y Combinator, est justement une telle entreprise, se concentrant sur la fourniture de données de haute qualité pour le développement logiciel. Jeudi, elle a annoncé avoir levé 15 millions de dollars en série A, dirigée par Mark Goldberg de Chemistry, avec des investisseurs provenant de DeepMind, Vercel, Anthropic et OpenAI. Elle avait auparavant levé 270 000 dollars lors de sa série seed, avec la participation du précédent chef technologue de Coinbase, Balaji Srinivasan.
Datacurve utilise un système de chasseurs de primes pour attirer des ingénieurs logiciels expérimentés qui accomplissent les ensembles de données les plus difficiles à obtenir. L'entreprise paie ces contributions, versant plus d'un million de dollars de primes à ce jour.
Mais Serena Ge, co-fondatrice, affirme que la principale motivation n'est pas l'argent. Pour des services à haute valeur comme le développement logiciel, les rémunérations pour le travail sur les données sont toujours bien inférieures aux relations de travail traditionnelles, donc l'avantage le plus important de l'entreprise est une expérience utilisateur positive.
Ge dit que nous traitons cela comme un produit de consommation, et non comme une opération de notation de données. Ils ont passé beaucoup de temps à réfléchir à la manière d'optimiser, pour susciter l'intérêt et faire entrer les personnes qu'ils souhaitent sur la plateforme.
Cette approche est particulièrement importante alors que les besoins en données après l'entraînement deviennent plus complexes. Les modèles initiaux étaient entraînés sur des ensembles de données simples, tandis que les produits d'intelligence artificielle d'aujourd'hui dépendent d'environnements d'apprentissage renforcé complexes, nécessitant une collecte de données spécifique et stratégique. À mesure que les environnements deviennent plus complexes, les exigences en termes de quantité et de qualité des données deviennent plus exigeantes, ce qui pourrait donner un avantage aux entreprises comme Datacurve spécialisées dans la collecte de données de haute qualité.
En tant qu'entreprise jeune, Datacurve se concentre actuellement sur le domaine de l'ingénierie logicielle, mais Ge affirme que ce modèle est également applicable aux domaines financiers, marketing ou même médicaux.
Ge explique que ce qu'ils font actuellement est de créer une infrastructure pour la collecte de données post-entraînement, attirant et retenant des talents hautement qualifiés dans chaque domaine.
À l'ère où les modèles d'intelligence artificielle entrent dans une nouvelle phase, la qualité des données dépasse désormais la quantité. Scale AI avait autrefois dominé le marché grâce à ses services de notation de données à grande échelle, mais avec le départ de Wang pour occuper un poste important chez Meta, la structure du marché commence à se relâcher. Le modèle de chasseurs de primes et la vision de produit de consommation de Datacurve apportent de nouvelles possibilités à ce secteur compétitif. En examinant la liste des investisseurs, la participation d'employés provenant de laboratoires d'intelligence artificielle de premier plan constitue lui-même la meilleure recommandation pour la qualité des données et la stratégie de Datacurve. La course pour les données d'entraînement de haute qualité vient à peine d'entrer dans une nouvelle phase.