Con el crecimiento de las empresas de inteligencia artificial, la lucha por datos de alta calidad se ha convertido en uno de los campos de batalla más intensos de toda la industria, lo que ha dado lugar a empresas como Mercor y Surge, siendo la más destacada Scale AI fundada por Alexandr Wang. Sin embargo, ahora Wang está al frente del negocio de inteligencia artificial de Meta, y muchos inversores ven una oportunidad, dispuestos a invertir en empresas que tengan estrategias innovadoras convincentes para recopilar datos de entrenamiento.
Datacurve es una empresa como esta, especializada en proporcionar datos de alta calidad para el desarrollo de software. El jueves, la empresa anunció una ronda de financiación Serie A de 15 millones de dólares, liderada por Mark Goldberg de Chemistry, con participación de empleados de DeepMind, Vercel, Anthropic y OpenAI. Anteriormente, la empresa había completado una ronda de financiación semilla de 270.000 dólares, en la que participó Balaji Srinivasan, anterior Chief Technology Officer de Coinbase.
Datacurve utiliza un sistema de cazadores de recompensas para atraer ingenieros de software calificados que completen los conjuntos de datos más difíciles de obtener. La empresa paga por estas contribuciones, habiendo distribuido más de 1 millón de dólares en recompensas hasta ahora.
Pero Serena Ge, cofundadora de la empresa, dijo que el mayor incentivo no es el dinero. Para servicios de alto valor como el desarrollo de software, los pagos por trabajo en datos siempre son mucho menores que los de relaciones laborales tradicionales, por lo que la ventaja más importante de la empresa es una experiencia de usuario positiva.
Ge dijo que lo tratan como un producto de consumo, no como una operación de anotación de datos. Dedican mucho tiempo a pensar cómo optimizarlo para que las personas que quieren participar estén interesadas y entren en la plataforma.
Esto es especialmente importante en un momento en que la demanda de datos después del entrenamiento se vuelve más compleja. Los modelos antiguos se entrenaban en conjuntos de datos simples, mientras que los productos de inteligencia artificial actuales dependen de entornos de aprendizaje reforzado complejos, que requieren construcción mediante recolección de datos específica y estratégica. A medida que los entornos se vuelven más complejos, los requisitos de datos se vuelven más exigentes tanto en cantidad como en calidad, lo que podría dar ventaja a empresas como Datacurve que se dedican a la recolección de datos de alta calidad.
Como empresa temprana, Datacurve se enfoca actualmente en el campo de la ingeniería de software, pero Ge dijo que este modelo también es aplicable a otros campos como finanzas, marketing e incluso medicina.
Ge explicó que lo que están haciendo ahora es crear una infraestructura para la recolección de datos después del entrenamiento, atrayendo y reteniendo a profesionales calificados en sus respectivos campos.