No cenário de rápido desenvolvimento da tecnologia de inteligência artificial, a OpenAI lançou sua mais recente API em tempo real em 1º de outubro de 2023, com o objetivo de fornecer aos desenvolvedores ferramentas poderosas para construir aplicativos de voz inteligentes. O lançamento desta API recebeu muita atenção, especialmente na edição de Singapura do OpenAI DevDay, onde engenheiros da Daily.co compartilharam suas experiências e lições aprendidas ao usar esta API. Esses engenheiros não apenas construíram produtos usando a API em tempo real, mas também participaram ativamente do desenvolvimento do projeto de código aberto Pipecat, visando fornecer conveniência a mais desenvolvedores.
A função principal da API em tempo real é sua excelente capacidade de processamento de "voz para voz", permitindo que os desenvolvedores realizem interações de voz com latência muito baixa. Convertendo a entrada de voz em texto e, em seguida, a saída do GPT-4o em voz, os desenvolvedores podem criar experiências de conversação mais naturais e fluidas. Esse processo é relativamente simples, indo da entrada de voz à saída de voz em apenas algumas etapas: [Entrada de voz] ➔ [GPT-4o] ➔ [Saída de voz].
Na demonstração, a equipe enfatizou a importância da detecção de atividade de voz (VAD) em aplicativos de voz. Como raramente há um ambiente completamente silencioso em demonstrações reais, eles recomendam a configuração de botões de "silenciar" e "responder forçadamente" para melhorar a experiência do usuário. Além disso, a API em tempo real também suporta a gestão do estado de conversação de múltiplos usuários e a interrupção do usuário na saída do LLM, tornando a conversação mais flexível e eficiente.
Para permitir que mais desenvolvedores comecem rapidamente, o projeto Pipecat fornece uma estrutura Python independente de fornecedor para a API em tempo real. Esta estrutura não apenas suporta o GPT-4o da OpenAI, mas também é compatível com mais de 40 outras APIs de IA, cobrindo várias opções de transmissão, como WebSockets e WebRTC, simplificando enormemente o processo de desenvolvimento. A estrutura também inclui muitas funções principais úteis, como gerenciamento de contexto, gerenciamento de estado do usuário e tratamento de eventos, ajudando os desenvolvedores a criar aplicativos de interação de voz mais inteligentes.
A API em tempo real da OpenAI oferece aos desenvolvedores uma nova maneira de construir produtos de voz inteligentes. Com o amadurecimento desta tecnologia, os futuros aplicativos de interação de voz se tornarão mais inteligentes e humanizados.