Boletim de IA: Novo modelo de áudio básico Kimi-Audio; Modelo de edição de imagem de código aberto Step1X-Edit; O Super Quadro de IA do Quark está disponível

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais assuntos do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1、Moonshot AI lança Kimi-Audio: um novo padrão para modelos básicos de áudio de código aberto

Recentemente, a Moonshot AI lançou o Kimi-Audio, um modelo básico de áudio de código aberto, projetado para impulsionar o desenvolvimento de tecnologias de compreensão, geração e interação de áudio. O modelo é baseado na arquitetura Qwen2.5-7B, combinada com a tecnologia Whisper, e suporta várias tarefas de áudio, como reconhecimento de voz e perguntas e respostas de áudio. Treinado com mais de 1,3 bilhão de horas de dados de áudio diversos, o Kimi-Audio apresentou um desempenho excepcional em vários testes de referência, superando os modelos existentes.

【AiBase destaca:】
🎤 Kimi-Audio possui poderosas capacidades de processamento de áudio multifuncional, suportando reconhecimento de voz, perguntas e respostas de áudio e outras tarefas.
📊 O modelo foi treinado em mais de 1,3 bilhão de horas de dados de áudio diversos, demonstrando um desempenho excepcional.
🌍 A estratégia de código aberto do Kimi-Audio reduz a barreira de entrada para o uso da tecnologia de IA de áudio, promovendo a democratização da tecnologia de IA global.
Link para detalhes:https://github.com/MoonshotAI/Kimi-Audio

2、Step1X-Edit: um novo padrão para edição de imagens de código aberto

Step1X-Edit é um modelo de edição de imagens de código aberto lançado pela equipe Stepfun AI, combinando modelos de linguagem grandes multimodais com transformadores de difusão, mostrando uma poderosa capacidade de geração de imagens. Suas características de código aberto e alto desempenho atraíram ampla atenção da indústria, especialmente seu excelente desempenho no teste de referência GEdit-Bench. O modelo fornece ferramentas poderosas para criadores de conteúdo e desenvolvedores, impulsionando o desenvolvimento da tecnologia de edição de imagens.

【AiBase destaca:】
{'emoji': '🚀', 'content': 'Step1X-Edit combina modelos de linguagem grandes multimodais com transformadores de difusão para gerar imagens de alta qualidade de forma eficiente.'}
{'emoji': '📊', 'content': 'O teste de referência GEdit-Bench mostra que seu desempenho supera os modelos de código aberto existentes, aproximando-se do nível dos modelos de código fechado.'}
{'emoji': '💡', 'content': 'As características de código aberto fornecem uma base para pesquisa e desenvolvimento, impulsionando a inovação e a popularização da tecnologia de edição de imagens.'}
Link para detalhes:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit

3、Atualização do Quark AI Super Box com o lançamento da função “Tirar foto e perguntar ao Quark”: responde a tudo

Em 25 de abril, o Quark AI Super Box, da Alibaba, lançou a função “Tirar foto e perguntar ao Quark”. Essa inovação utiliza modelos de compreensão e raciocínio visual para identificar e entender rapidamente vários problemas encontrados pelos usuários na vida real. Os usuários podem obter informações e respostas precisas tirando fotos, cobrindo várias áreas, incluindo explicações de artefatos, reconhecimento de produtos e análise de saúde.

【AiBase destaca:】
📸 O novo recurso “Tirar foto e perguntar ao Quark” é baseado na compreensão visual e pode identificar rapidamente o conteúdo da imagem e fornecer informações relevantes.
🛒 Os usuários podem fazer upload de imagens de produtos e ir diretamente para o link de produtos semelhantes no Taobao, melhorando a experiência de compra.
🌍 O recurso suporta perguntas e traduções em vários idiomas, adequado para viagens, saúde, trabalho e outros cenários.

4、Versão chinesa do Apple AI inteligente chegando? Versão oficial do iOS 18.5 prevista para maio

A Apple lançará em maio a atualização oficial do iOS 18.5 para usuários chineses, trazendo o aguardado recurso Apple inteligente. Esse recurso já foi lançado em outras regiões, e os usuários chineses esperaram quase um mês. O Apple inteligente é um sistema de IA baseado em cenários pessoais, oferecendo vários serviços, incluindo remoção de fotos e respostas inteligentes. No entanto, apenas a série iPhone 15 Pro e os futuros modelos iPhone 16 suportarão esse recurso, e os usuários precisam garantir que seus dispositivos tenham espaço de armazenamento suficiente.

【AiBase destaca:】
🆕 O recurso Apple inteligente será lançado oficialmente para usuários chineses em maio, marcando a entrada da Apple na era da IA generativa.
📸 O recurso inclui serviços diversos, como remoção de fotos, resumo de notificações e respostas inteligentes, mas apenas os modelos iPhone 15 Pro e superiores o suportam.
💾 Os usuários precisam garantir que seus dispositivos tenham pelo menos 7 GB de espaço de armazenamento disponível, o que pode ser um desafio para a gestão de armazenamento de alguns usuários.

5、Google AI publica 601 casos de uso de IA generativa do mundo real, abrangendo vários setores

O Google Cloud publicou recentemente um relatório mostrando 601 casos de uso de IA generativa de empresas líderes em todo o mundo, mostrando o rápido desenvolvimento e a ampla aplicação dessa tecnologia. Em comparação com apenas 101 casos no ano passado, houve um aumento de seis vezes, abrangendo vários setores, como automóveis, finanças e saúde. Esses casos não apenas destacam a importância da IA generativa nas operações e na estratégia, mas também mostram seu potencial como parte da estrutura organizacional.

【AiBase destaca:】
🔍 601 casos de uso de IA generativa mostram a ampla aplicação da tecnologia em vários setores, com um aumento de seis vezes em relação ao ano passado.
💼 A classificação dos agentes de IA é clara, mostrando os múltiplos papéis da IA em atendimento ao cliente, produtividade interna e segurança.
🚀 Os casos de uso reais em vários setores destacam a importante tendência da IA generativa passando da experimentação para a produção.
Link para detalhes:https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

6、Microsoft lança o novo sistema operacional Agent UFO², integrando profundamente o Windows e a automação inteligente

A versão recente do UFO² lançada pela Microsoft trouxe avanços significativos na área de automação, especialmente na integração profunda com o sistema Windows. A nova versão pode chamar diretamente as APIs nativas do Windows, melhorando muito a eficiência da execução de tarefas de automação. Em comparação com o Operator da OpenAI, o UFO² tem uma taxa de sucesso significativamente maior em vários cenários de teste, especialmente no processamento de tarefas complexas e operações entre aplicativos.

【AiBase destaca:】
🚀 O UFO² está profundamente integrado ao sistema Windows e pode chamar diretamente as APIs nativas, melhorando a eficiência da automação.
📊 A taxa de sucesso das tarefas de automação do UFO² é significativamente maior do que a do Operator da OpenAI, apresentando um desempenho excelente.
🖥️ O modo picture-in-picture adicionado permite o isolamento de tarefas de automação e operações do usuário, melhorando a experiência do usuário.
Link para detalhes:https://github.com/microsoft/UFO?tab=readme-ov-file

7、OpenAI lança nova versão do ChatGPT: GPT-4o mais inteligente e intuitivo

A OpenAI fez recentemente uma atualização importante em sua versão GPT-4o do ChatGPT, focando em como melhor preservar a memória e melhorar as habilidades em Ciência, Tecnologia, Engenharia e Matemática (STEM). A nova versão visa direcionar as conversas de forma mais eficiente para resultados produtivos, ao mesmo tempo em que melhora o nível de inteligência e as características de personalidade do modelo. Embora existam alguns problemas de “suavização” excessiva, a OpenAI promete melhorias futuras. Além disso, os desenvolvedores podem optar pela nova série GPT-4.1 para uma experiência de API mais estável.

【AiBase destaca:】
🌟 A versão atualizada do GPT-4o foi otimizada na preservação da memória e nas habilidades STEM.
🤖 A OpenAI reconhece que o modelo apresenta problemas de “suavização” excessiva em alguns casos e fará melhorias no futuro.
🔧 Os desenvolvedores podem optar pela nova série GPT-4.1 para uma experiência de API mais estável.

8、Ema lança o novo modelo de linguagem EmaFusion: supera O3 e Gemini em custo e precisão

A Ema lançou o novo modelo de linguagem EmaFusion, alegando superar vários modelos de IA conhecidos em termos de custo e precisão. O EmaFusion usa um sistema de julgamento “em cascata” que pode equilibrar dinamicamente o custo e a precisão, permitindo que os usuários façam ajustes finos de acordo com as necessidades da tarefa. Sua precisão atinge 94,3%, com um custo operacional significativamente reduzido, tornando-se uma nova opção para o desenvolvimento de IA empresarial.

【AiBase destaca:】
🌟 A precisão do EmaFusion atinge 94,3%, e o custo é um quarto da média de mercado.
💡 O EmaFusion pode decompor tarefas complexas de forma inteligente e atribuí-las ao modelo de IA mais adequado.
🚀 A Ema está colaborando com empresas líderes globais como KPMG e Hitachi para impulsionar o desenvolvimento da IA empresarial.
Link para detalhes:https://www.ema.co/emafusion

9、Liquid AI lança Hyena Edge, inaugurando uma nova era para dispositivos de borda de smartphones inteligentes

Recentemente, a Liquid AI lançou o novo modelo de convolução Hyena Edge, projetado para fornecer soluções de IA mais eficientes para smartphones e dispositivos de borda. O modelo supera os modelos tradicionais Transformer++ em eficiência de computação e uso de memória, especialmente adequado para ambientes com recursos limitados. O Hyena Edge apresentou um desempenho excepcional em vários testes de referência de modelos de linguagem padrão, mostrando o potencial do design de arquitetura automatizada e planeja ser de código aberto no futuro para promover a popularização da tecnologia.

【AiBase destaca:】
🌟 Hyena Edge é um novo modelo de convolução lançado pela Liquid AI, projetado para dispositivos de borda como smartphones.
🚀 O modelo supera os modelos tradicionais Transformer++ em eficiência de computação e uso de memória, adequado para ambientes com recursos limitados.
📈 Hyena Edge apresentou um desempenho excelente em vários testes de referência de modelos de linguagem padrão e planeja ser de código aberto no futuro para promover a popularização da tecnologia.
Link para detalhes:https://www.liquid.ai/research/convolutional-multi-hybrids-for-edge-devices

10、LemonAI lança o modelo de avatar digital de áudio e vídeo em tempo real Slice Live

Recentemente, a LemonAI lançou seu produto inovador Slice Live, o primeiro modelo de IA de áudio e vídeo em tempo real do mundo. Os usuários precisam apenas fazer upload de uma foto para fazer chamadas de vídeo em tempo real com personagens virtuais. O Slice Live usa um modelo Transformer avançado para renderizar cada pixel a 25 quadros por segundo, garantindo imagens suaves e realistas. O produto mostrou um enorme potencial nas áreas de entretenimento e educação, e será expandido para aplicativos AR, VR e metaverso no futuro, ao mesmo tempo em que valoriza a privacidade e a segurança dos dados do usuário.

【AiBase destaca:】
📸 Os usuários precisam apenas fazer upload de uma foto para fazer chamadas de vídeo em tempo real com personagens virtuais.
🎭 O Slice Live oferece uma experiência interativa imersiva nas áreas de entretenimento e educação, trazendo conteúdo de aprendizado vívido.
🔒 A LemonAI se compromete a explorar continuamente a proteção de privacidade e garantir a segurança dos dados do usuário.

11、Zhipu e Shengshu Technology estabelecem parceria estratégica, focando em inovação conjunta de grandes modelos

Em 27 de abril, a Zhipu, da Universidade Tsinghua, e a Shengshu Technology anunciaram uma importante parceria estratégica, visando promover a inovação tecnológica e a implementação industrial de grandes modelos domésticos por meio da experiência acumulada de ambas as partes em grandes modelos de linguagem e modelos de geração multimodais. Essa colaboração abrange vários aspectos, incluindo pesquisa e desenvolvimento conjuntos, integração de produtos e soluções, e as duas partes se concentrarão em vários setores para promover a aplicação e o desenvolvimento da tecnologia de IA, mostrando o enorme potencial de grandes modelos domésticos em inovação tecnológica e aplicação industrial.

【AiBase destaca:】
🤖 Zhipu e Shengshu Technology irão pesquisar e desenvolver conjuntamente grandes modelos de linguagem e modelos de geração multimodais para promover a inovação tecnológica.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Boletim de IA: Novo modelo de áudio básico Kimi-Audio; Modelo de edição de imagem de código aberto Step1X-Edit; O Super Quadro de IA do Quark está disponível - tire fotos e pergunte ao Quark

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Jornal da IA: ByteDance lançará a versão 2.0 da ferramenta de programação de IA TRAE; Mistral apresenta com destaque o modelo de áudio Voxtral; Moonshot responde sobre a lentidão da API Kimi K2

Kimi-2 está disponível no LiveBench AI: um novo campeão de IA aberta ultrapassa o GPT-4.1

A Face Escura da Lua Kimi K2 API está lenta, está sendo otimizada com tudo!

Kimi K2 vence o concurso de escrita criativa de contos curtos, superando o o3-Pro e mostrando uma nova altura na literatura da IA

TRAE lança serviço de modelo Kimi-K2 Versão internacional suporta funcionalidade Grok-4 (Beta) atualização

O Moonshot responde à lentidão da API Kimi K2: está trabalhando ativamente na otimização

Jornal de IA: Meitu lança agente de imagem AI RoboNeo; modelo Kimi K2 com quantização de 1,8 bit disponível; Amazon lança editor de código AI Kiro

Kimi K2 está invadindo o mundo! A IA de código aberto lidera a lista OpenRouter com participação no mercado superior à XAI

O modelo Kimi K2 de quantização de 1,8 bit da Unsloth AI é lançado, reduzindo significativamente os custos de implantação

A participação de mercado da Kimi K2 no OpenRouter ultrapassou a XAI