À medida que as empresas de IA se tornam mais maduras, a disputa por dados de alta qualidade tornou-se uma das batalhas mais acirradas da indústria, gerando empresas como a Mercor e a Surge, sendo a mais notável a Scale AI, fundada por Alexandr Wang. Mas agora Wang está à frente do negócio de IA da Meta, e muitos investidores viram uma oportunidade, dispostos a financiar empresas com estratégias novas e convincentes para coletar dados de treinamento.

A Datacurve é uma dessas empresas, formada pelos alunos do Y Combinator, especializada em fornecer dados de alta qualidade para desenvolvimento de software. Na quinta-feira, a empresa anunciou uma rodada de financiamento de 15 milhões de dólares, liderada por Mark Goldberg da Chemistry, com participação de funcionários da DeepMind, Vercel, Anthropic e OpenAI. Anteriormente, a empresa havia levantado 270 mil dólares em sua rodada de semente, com o ex-CIO da Coinbase, Balaji Srinivasan, participando do investimento.

Investimento, financiamento, dinheiro

A Datacurve utiliza um sistema de caça aos prêmios para atrair engenheiros de software experientes para completar os conjuntos de dados mais difíceis de obter. A empresa paga por essas contribuições e já distribuiu mais de 1 milhão de dólares em prêmios.

Mas Serena Ge, co-fundadora, disse que o maior incentivo não é dinheiro. Para serviços de alto valor como o desenvolvimento de software, os pagamentos pelos trabalhos de dados sempre são muito menores do que os relacionados a contratos tradicionais, portanto, a principal vantagem da empresa é a experiência do usuário positiva.

Ge disse que tratam isso como um produto de consumo, e não como uma operação de anotação de dados. Eles dedicaram muito tempo pensando em como otimizar, fazendo com que as pessoas que desejam entrar na plataforma fiquem interessadas.

Essa abordagem é especialmente importante no momento em que as demandas por dados após o treinamento tornaram-se mais complexas. Modelos anteriores eram treinados em conjuntos de dados simples, enquanto os produtos de IA atuais dependem de ambientes de aprendizagem reforçada complexos, que exigem coleta de dados específica e estratégica. À medida que os ambientes se tornam mais complexos, os requisitos de dados aumentam tanto em quantidade quanto em qualidade, o que pode dar vantagem às empresas de coleta de dados de alta qualidade como a Datacurve.

Como uma empresa inicial, a Datacurve se concentra atualmente no setor de engenharia de software, mas Ge diz que esse modelo também é aplicável a áreas como finanças, marketing e até medicina.

Ge explicou que o que estão fazendo agora é criar uma infraestrutura para a coleta de dados após o treinamento, atraindo e mantendo profissionais de alto nível em suas respectivas áreas.

Em contexto de entrada das modelagens de IA em uma nova fase, a importância da qualidade dos dados ultrapassou a quantidade de dados. A Scale AI já dominava o mercado com seus serviços de anotação de dados escalonáveis, mas com o afastamento de Wang para assumir um cargo importante na Meta, a estrutura do mercado começou a mudar. O modelo de caça aos prêmios e a visão de produto de consumo da Datacurve trazem novas possibilidades para este setor competitivo. Em termos de investidores, a participação de funcionários de laboratórios de IA de topo é a melhor comprovação da qualidade dos dados e da direção estratégica da Datacurve. A batalha pela coleta de dados de treinamento de alta qualidade ainda está entrando em uma nova rodada.