Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais assuntos do campo de IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Saiba mais:https://top.aibase.com/

1、OpenAI lança nova API de geração de imagens do ChatGPT: os desenvolvedores podem integrar facilmente a função de desenho de IA

A OpenAI lançou recentemente a API de geração de imagens gpt-image-1, permitindo que os desenvolvedores integrem facilmente essa tecnologia avançada em diversos aplicativos. Desde o seu lançamento, essa função atraiu um grande número de usuários, gerando mais de 700 milhões de imagens. O gpt-image-1 não apenas suporta vários estilos de imagem, mas também possui recursos de segurança integrados, garantindo que o conteúdo gerado esteja em conformidade com as políticas da empresa. Além disso, sua estrutura de preços razoável permite que os desenvolvedores gerem imagens de alta qualidade a baixo custo, marcando um avanço significativo no campo da geração de imagens de IA.

image.png

【Resumo AiBase:】

🌟 A OpenAI lançou a API de geração de imagens gpt-image-1, que os desenvolvedores podem integrar facilmente em seus aplicativos.

🖼️ Os usuários geraram mais de 700 milhões de imagens na primeira semana após o lançamento do novo recurso, atraindo milhões de novos usuários.

💰 O custo de geração de imagens do gpt-image-1 é acessível, chegando a apenas US$ 0,02 por imagem.

2、O número de usuários ativos mensais do Google Gemini ultrapassa 350 milhões, mas ainda há uma diferença em relação ao ChatGPT

O chatbot de inteligência artificial Gemini do Google apresentou um crescimento de usuários significativo no último ano, atingindo 350 milhões de usuários ativos mensais e um aumento de usuários ativos diários de 9 milhões para 35 milhões. No entanto, o Gemini ainda está atrás do ChatGPT, líder de mercado, que possui 600 milhões de usuários ativos mensais. A colaboração com a Samsung e a integração de produtos impulsionaram o rápido crescimento do Gemini, demonstrando a crescente demanda dos usuários por ferramentas de bate-papo com IA. No futuro, a capacidade do Google de melhorar ainda mais a experiência do usuário e os recursos do Gemini será crucial para reduzir a diferença em relação aos concorrentes.

【Resumo AiBase:】

🌟 O número de usuários ativos mensais do Gemini atingiu 350 milhões, e o número de usuários ativos diários aumentou para 35 milhões.

🤖 O ChatGPT possui 600 milhões de usuários ativos mensais, mantendo-se à frente do Gemini.

📈 A parceria com a Samsung e a integração de produtos impulsionaram o rápido crescimento do Gemini.

3、OpenAI prevê um aumento acentuado na receita para US$ 125 bilhões em 2029

A previsão de receita recentemente divulgada pela OpenAI indica que sua receita total deve atingir US$ 125 bilhões até 2029, sendo os negócios de agentes de IA e receita de canais os principais impulsionadores. Em 2023, a receita da OpenAI atingiu US$ 3,7 bilhões, com mais de 500 milhões de usuários ativos semanais, demonstrando um crescimento significativo. A empresa prevê que o fluxo de caixa será positivo nos próximos quatro anos e que a margem de lucro bruto aumentará para quase 70%. Essas previsões atraíram a atenção dos investidores e devem impulsionar o rápido desenvolvimento da OpenAI.

【Resumo AiBase:】

🌟 Estima-se que a receita da OpenAI atingirá US$ 125 bilhões até 2029, com os negócios de agentes de IA como o principal ponto de crescimento.

📈 A receita de 2023 atingiu US$ 3,7 bilhões, com mais de 500 milhões de usuários ativos semanais, demonstrando um crescimento significativo.

💰 Estima-se que o fluxo de caixa será positivo nos próximos quatro anos, e a margem de lucro bruto aumentará para quase 70%.

4、Ostris lança Flex.2-preview, um modelo de difusão de 8 bilhões de parâmetros que revoluciona o fluxo de trabalho do ComfyUI

A equipe da Ostris lançou o Flex.2-preview, um modelo de difusão de texto para imagem baseado em 8 bilhões de parâmetros, projetado para otimizar o fluxo de trabalho do ComfyUI. O modelo apresenta um desempenho excepcional no controle da geração de imagens, suportando vários recursos, como reparo de imagens e controle profundo. Já disponível em código aberto no Hugging Face, ele rapidamente atraiu a atenção da comunidade de criação de arte com IA. O design leve e a capacidade de inferência eficiente do Flex.2-preview o tornam uma ferramenta ideal para design criativo e aplicações comerciais, mostrando o potencial ilimitado da criação de arte com IA no futuro.

image.png

【Resumo AiBase:】

🎨 Suporte de controle universal: com controle de linhas, poses e profundidade integrados, direcionando com precisão os resultados gerados, adequado para diversas necessidades criativas.

🖼️ Capacidade de reparo de imagens: suporta reparo avançado de imagens, permitindo que os usuários substituam ou reparem o conteúdo por meio de máscaras, aumentando a flexibilidade criativa.

⚙️ Integração com o ComfyUI: o modelo é otimizado para o ComfyUI, fornecendo suporte de fluxo de trabalho baseado em nós, simplificando a configuração de tarefas complexas.

Link para detalhes:https://huggingface.co/ostris/Flex.2-preview

5、NVIDIA lança o modelo multimodal LLM Describe Anything: gera descrições detalhadas de regiões específicas

O modelo Describe Anything3B (DAM-3B) da equipe de IA da NVIDIA atraiu grande atenção na área de aprendizado multimodal. O modelo é capaz de gerar descrições detalhadas de regiões específicas de imagens ou vídeos especificadas pelo usuário, superando as limitações da anotação de imagens tradicional. Por meio do código e conjuntos de dados de código aberto, o DAM-3B fornece recursos abundantes para desenvolvedores, promovendo a pesquisa e aplicação de IA multimodal, especialmente mostrando amplas perspectivas em áreas como educação, saúde e criação de conteúdo.

【Resumo AiBase:】

🖌️ O DAM-3B possui capacidade de descrição regional, podendo gerar descrições detalhadas de acordo com a região especificada pelo usuário, melhorando a precisão e riqueza da descrição.

🔓 A NVIDIA tornou o código, os pesos do modelo e os conjuntos de dados do DAM-3B de código aberto, promovendo a transparência e a colaboração da comunidade na pesquisa de IA multimodal.

🌐 O modelo mostra amplas perspectivas de aplicação em várias áreas, como criação de conteúdo, interação inteligente e tecnologia de acessibilidade, impulsionando o progresso da inclusão social.

Link para detalhes:https://github.com/NVlabs/describe-anything

6、Nano AI lança a caixa de ferramentas universal MCP, simplificando a integração e a chamada de ferramentas de IA

A caixa de ferramentas universal MCP lançada pela Nano AI visa simplificar a complexidade da configuração do Model Context Protocol, fornecendo uma solução completa. Esta caixa de ferramentas possui mais de 100 serviços MCP pré-configurados e 18 chaves de API comuns, suportando várias funções, como geração de imagens, áudio e vídeo. Seu lançamento gerou grande interesse na comunidade de desenvolvedores de IA, com feedback positivo da comunidade, considerando que sua eficiência e facilidade de uso melhoraram significativamente a produtividade dos desenvolvedores.

6388108570168340928723655.jpg

【Resumo AiBase:】

🔧 Mais de 100 serviços MCP pré-configurados, permitindo que os desenvolvedores chamem diretamente sem configuração manual, reduzindo a barreira de entrada.

🔑 18 chaves de API comuns integradas, permitindo que os usuários economizem o incômodo de obter chaves por conta própria, simplificando a configuração inicial.

🌐 Suporta geração multimodal, gerando imagens, áudio e vídeo por meio de comandos de linguagem natural, melhorando a eficiência criativa.

Link para detalhes:https://bot.n.cn/download?src=AIBotCode

7、O assistente de código Tencent Cloud CodeBuddy lança o agente de desenvolvimento de software Craft

Em 24 de abril, a Tencent Cloud lançou uma versão atualizada do assistente de código CodeBuddy, apresentando o agente de desenvolvimento de software Craft. Esta ferramenta eleva a programação de IA da simples conclusão de código à entrega de projetos, melhorando significativamente a eficiência de desenvolvimento. Os desenvolvedores precisam apenas inserir suas necessidades em linguagem natural, e o Craft pode gerar automaticamente o código completo do projeto e suportar IDEs principais. O Craft também suporta o protocolo MCP, permitindo a integração perfeita de código para testes, construção e implantação, compatível com o ecossistema Tencent, auxiliando a colaboração eficiente da equipe.

image.png

【Resumo AiBase:】

🚀 O agente inteligente Craft pode converter as necessidades de linguagem natural dos desenvolvedores em código de projeto completo, simplificando muito o processo de desenvolvimento.

🔗 Suporta o protocolo MCP, permitindo que o código gerado por IA seja integrado perfeitamente aos estágios de teste e implantação, melhorando a coerência do desenvolvimento.

🧩 O CodeBuddy já é amplamente utilizado internamente na Tencent, com 85% dos desenvolvedores usando a ferramenta, melhorando significativamente a eficiência geral de desenvolvimento.

Link para detalhes:https://cnb.cool

8、Kunlun Wanwei lança código aberto da versão Skywork-R1V2.0

Em 24 de abril, a Kunlun Wanwei lançou seu modelo de raciocínio multimodal Skywork-R1V2.0, melhorando significativamente a capacidade de raciocínio visual e textual, especialmente apresentando um desempenho excelente em problemas de matemática do vestibular e cenários de tarefas gerais. Este modelo quebrou recordes SOTA de código aberto em vários testes de referência autorizados, mostrando capacidades comparáveis a modelos comerciais fechados. O código aberto do R1V2.0 não apenas demonstra a força técnica da Kunlun Wanwei na área multimodal, mas também fornece uma ferramenta poderosa para desenvolvedores e pesquisadores globais, promovendo a construção de um ecossistema multimodal.

image.png

【Resumo AiBase:】

🔍 O R1V2.0 apresenta desempenho excepcional no raciocínio de problemas de matemática em chinês, tornando-se um assistente gratuito de resolução de problemas de IA, quebrando vários recordes SOTA de código aberto.

⚙️ Emprega o modelo de recompensa Skywork-VL Reward e o mecanismo de otimização de preferência mista para melhorar a capacidade do modelo em tarefas e áreas múltiplas.

🌍 A Kunlun Wanwei está comprometida em promover o código aberto e a inovação. O código aberto do R1V2.0 fornece novos modelos base para o desenvolvimento de AGI, e continuará lançando modelos e conjuntos de dados de ponta no futuro.

Link para detalhes:https://github.com/SkyworkAI/Skywork-R1V

9、Zhipu anuncia redução de preços em vários produtos de modelos grandes, com GLM-4-Plus com redução de 90%

Em 24 de abril, a plataforma aberta Zhipu BigModel anunciou um grande ajuste nos preços de vários de seus produtos de modelos grandes, entrando na “era dos bilhões”, permitindo que as empresas acessem tecnologias de IA avançadas a baixo custo. Este ajuste inclui vários produtos, como GLM-4-FlashX, GLM-Z1 series e GLM-4-Plus, sendo que a redução de preço do GLM-4-Plus chega a 90%. Esta medida visa reduzir a barreira de entrada, atender às necessidades de vários setores, como finanças, internet e educação, e promover a ampla aplicação de tecnologias de modelos grandes no mercado.

6388109073699302485969311.png

【Resumo AiBase:】

🚀 O preço do modelo GLM-4-FlashX é de apenas 10 yuans por 100 milhões de tokens, com velocidade de inferência comparável ao GPT-4 e desempenho excelente.

💡 A velocidade de inferência do GLM-Z1-AirX é 8 vezes maior que a do DeepSeek-R1, com alta relação custo-benefício, e o preço do GLM-Z1-Air é apenas 1/30 do DeepSeek-R1.

📉 O preço do GLM-4-Plus caiu para 5 yuans por milhão de tokens, líder do setor, atendendo às necessidades de vários cenários.

10、Lançamento do JSON Visuals for ChatGPT, desbloqueando a criação de estilos de imagem ilimitados

O lançamento do JSON Visuals for ChatGPT trouxe uma nova dimensão criativa para a geração de imagens, permitindo que os usuários gerem conteúdo visual personalizado com mais de 50 códigos estéticos e randomizadores. Esta ferramenta não apenas aumenta a flexibilidade da geração, mas também suporta saída de alta resolução, adequada para várias áreas, como arte digital, marketing de marca e design de jogos. O feedback da comunidade tem sido positivo, esperando otimizações e expansões futuras.

【Resumo AiBase:】

✨ Mais de 50 códigos estéticos, suportando a geração de estilos diversificados, atendendo às necessidades criativas.