Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1. ByteDance lança o grande modelo de raciocínio visual Doubao: preço tão baixo quanto 0,003 yuan/mil token

Na conferência Volcano Engine FORCE, o presidente da Volcano Engine, Tan Dai, lançou o grande modelo de compreensão visual Doubao. Este modelo, combinando informações de texto e imagem, demonstra uma capacidade excepcional de reconhecimento e raciocínio de conteúdo. O preço do novo modelo foi reduzido significativamente, dando mais confiança aos usuários corporativos em sua transformação para a inteligência artificial. O uso diário de tokens do grande modelo Doubao já ultrapassou 4 trilhões, mostrando uma forte demanda de mercado e potencial de aplicação.

image.png

【Resumo AiBase:】

🖼️ O novo grande modelo de compreensão visual Doubao pode processar simultaneamente informações de texto e imagem, melhorando a capacidade de reconhecimento e raciocínio de conteúdo.

💰 Desde maio deste ano, o preço do grande modelo Doubao no setor caiu 99%, tornando mais fácil para os usuários corporativos adotarem essa tecnologia.

📈 Atualmente, o uso diário de tokens do grande modelo Doubao ultrapassa 4 trilhões, um aumento de mais de 33 vezes, mostrando sua demanda de mercado.

2. OpenAI abre a API do modelo o1 completo: custo reduzido em 60%, nova capacidade avançada de processamento visual

Em uma série de transmissões ao vivo contínuas de 12 dias úteis, a OpenAI lançou a API do modelo o1 para desenvolvedores no 9º dia e anunciou uma grande atualização para a API em tempo real, com suporte à tecnologia WebRTC. A partir da data de lançamento, a OpenAI fornecerá acesso à API o1 aos desenvolvedores com nível 5 de uso da API. Em comparação com a versão de visualização anterior, a API do modelo o1 desta atualização reduziu o custo de processamento em 60% e adicionou capacidades avançadas de processamento visual. Ao mesmo tempo, o custo do GPT-4o no processamento de áudio também foi reduzido em 60%, enquanto o preço da versão mini caiu 10 vezes.

【Resumo AiBase:】

🚀 Lançamento da API do modelo o1, com suporte à tecnologia WebRTC, melhorando a capacidade de interação em tempo real.

💰 Redução de custo de 60%, novas capacidades avançadas de processamento visual, melhorando a experiência do usuário.

📈 Mais de 300 milhões de usuários ativos por semana, mostrando o rápido crescimento da base de usuários da OpenAI.

3. Ideogram lança ferramenta de geração de imagens em lote: diga adeus às operações complexas, geração de imagens criativas em larga escala com um único clique

A plataforma de geração de imagens de IA Ideogram lançou recentemente uma ferramenta de geração de imagens em lote, com o objetivo de simplificar o processo de geração de imagens por meio do upload de arquivos de planilha. Os usuários podem preencher previamente as instruções e configurações em um arquivo CSV, e o Ideogram gerará imagens automaticamente com base nessas informações. Essa inovação aumenta significativamente a eficiência de trabalho de designers profissionais e criativos, reduzindo as operações complexas de entrada individual. Este recurso está atualmente disponível apenas para usuários do Ideogram Pro, mostrando o enorme potencial da IA ​​na área de design e a forma inteligente de criação.

image.png

【Resumo AiBase:】

🚀 A ferramenta de geração em lote permite que os usuários carreguem planilhas contendo prompts, simplificando o processo de geração de imagens.

🖼️ Os usuários precisam apenas baixar o modelo, gerar prompts e carregar o arquivo CSV para gerar imagens automaticamente.

💼 Este recurso está atualmente disponível apenas para usuários do Ideogram Pro, oferecendo uma experiência de criação eficiente para designers.

4. JiMeng AI lança função de geração de pôsteres: transforme pôsteres estáticos em pôsteres dinâmicos com um clique

Na conferência Volcano Engine FORCE de 18 de dezembro de 2024, a JiMeng AI lançou um novo recurso de geração de pôsteres. O lançamento dessa tecnologia marca um importante avanço na área de geração de imagens. Os usuários precisam apenas inserir uma descrição simples, e o sistema pode gerar rapidamente um pôster criativo, simplificando significativamente o tempo e as habilidades necessárias para o design tradicional. Além disso, o novo recurso de geração de pôsteres dinâmicos oferece aos criadores de conteúdo formas mais ricas de apresentação, especialmente adequado para mídias sociais e publicidade, podendo atrair eficazmente a atenção do público e melhorar a eficácia do marketing.

image.png

【Resumo AiBase:】

🌟 Os usuários precisam apenas de uma descrição para gerar rapidamente pôsteres criativos, simplificando o processo de criação.

🎥 Novo recurso de geração de pôsteres dinâmicos, tornando a apresentação das obras mais vívida, adequado para mídias sociais e publicidade.

📈 A JiMeng AI considera as necessidades personalizadas dos usuários, oferecendo opções flexíveis de geração de conteúdo para auxiliar na promoção da marca.

5. Lançamento oficial da versão 1.5 do Kouzi: suporte para capacidade multimodal, experimente o novo modelo Doubao em primeira mão

Na conferência Volcano Engine FORCE, a Kouzi Coze lançou a nova versão 1.5 do Kouzi, marcando um importante avanço no desenvolvimento de aplicativos de IA. Esta versão suporta uma interface de construção GUI, permitindo que os usuários criem e publiquem facilmente vários formatos de aplicativos, reduzindo significativamente a barreira de entrada para o desenvolvimento. Ao mesmo tempo, o Kouzi 1.5 aprimorou sua capacidade multimodal, suportando o mais recente grande modelo Doubao, fornecendo modelos e soluções abrangentes para ajudar os desenvolvedores a melhorar a eficiência, atraindo mais de 1 milhão de desenvolvedores ativos.

image.png

【Resumo AiBase:】

🖥️ O Kouzi 1.5 suporta uma interface de construção GUI, permitindo que os usuários publiquem vários formatos de aplicativos com um clique, reduzindo a barreira de entrada para o desenvolvimento.

🌐 A capacidade multimodal foi significativamente aprimorada, suportando os modelos de compreensão visual, música e geração de imagens Doubao, expandindo a gama de aplicativos de IA.

📊 Fornece uma grande quantidade de modelos de alta qualidade, cobrindo vários cenários de negócios, melhorando a eficiência de desenvolvimento e atraindo mais de 1 milhão de desenvolvedores ativos.

Link para detalhes: https://www.coze.cn/docs/guides/vlm

6. ByteDance: o modelo de geração de vídeo Doubao será oficialmente aberto ao público em janeiro de 2025

Na conferência Volcano Engine FORCE · Inverno de 2024, a Volcano Engine mostrou a nova atualização da família de grandes modelos Doubao, com uso diário de tokens ultrapassando 4 trilhões, mostrando um crescimento significativo. A conferência lançou o modelo de compreensão visual e várias atualizações de modelos, melhorando a capacidade de processamento de tarefas abrangentes do modelo Doubao universal pro. Além disso, a Volcano Engine lançou o modelo de geração 3D veOmniverse + Doubao, que suporta criação AIGC, e anunciou que o modelo de geração de vídeo Doubao será oficialmente aberto ao público em janeiro de 2025, marcando o desenvolvimento aprofundado da tecnologia de grandes modelos.

image.png

【Resumo AiBase:】

🌟 O uso diário de tokens do grande modelo Doubao ultrapassa 4 trilhões, um aumento de mais de 33 vezes, mostrando ampla aplicação.

🛠️ O novo modelo de geração 3D veOmniverse + Doubao suporta geração e edição de ativos 3D de alta fidelidade, melhorando a capacidade de criação AIGC.

📅 O modelo de geração de vídeo Doubao será oficialmente aberto ao público em janeiro de 2025, os usuários podem fazer reservas para experimentar.

7. Lançamento da busca de IA em toda a web da ByteDance Volcano Engine: suporte para busca multimodal

Na conferência Volcano Engine FORCE · Inverno de 2024, a ByteDance lançou o serviço de busca de IA em toda a web, com o objetivo de melhorar a precisão de recomendação e a capacidade de descoberta de informações das empresas, integrando várias informações e necessidades. Este serviço, baseado no poderoso mecanismo de busca e recomendação A1, suporta compreensão multimodal, podendo processar rapidamente uma grande quantidade de conteúdo e fornecer respostas em tempo real sobre tópicos quentes, melhorando a experiência do usuário. Ao mesmo tempo, a Volcano Engine também lançou um esquema de memória de grande modelo para ajudar os clientes a construir sistemas de memória eficientes, uma importante direção para o desenvolvimento de grandes modelos.

image.png

【Resumo AiBase:】

🌐 A busca de IA em toda a web da Volcano Engine integra serviços de busca contextualizada, informações privadas da empresa e perguntas e respostas online, melhorando a precisão das recomendações de informações.

⚙️ O mecanismo de busca e recomendação A1 utiliza a tecnologia da família de grandes modelos Doubao, suportando compreensão multimodal de texto, imagem, áudio e vídeo, aplicável a vários cenários.

💡 O esquema de memória de grande modelo combina cache de contexto e tecnologia RAG para ajudar os clientes a construir sistemas de memória eficazes, melhorando a capacidade de memória do grande modelo.

8. WeChat lança nova capacidade de "tom de voz do autor"

O recurso "tom de voz do autor" lançado pela plataforma WeChat permite que os autores de contas públicas adicionem dublagem personalizada em áudio aos seus artigos, melhorando a interatividade e a personalização da experiência de leitura. Os autores precisam baixar o aplicativo "Assistente de Conta Pública" para gravar o áudio, replicando seu tom e emoções pessoais, e podem usá-lo em suas contas públicas. Este recurso está atualmente em teste beta e ainda não foi totalmente lançado. O WeChat incentiva os criadores a aguardarem pacientemente. Isso marca um importante avanço do WeChat em melhorar a experiência do usuário e atender às necessidades dos criadores, e espera-se que enriqueça as formas de apresentação de conteúdo de contas públicas.

微信截图_20241218142646.png

【Resumo AiBase:】

🎧 Os autores podem adicionar dublagem personalizada em áudio aos seus artigos para melhorar a experiência interativa.

📱 É necessário baixar o aplicativo "Assistente de Conta Pública" para gravar o áudio, replicando o estilo pessoal.

🔄 O recurso está atualmente em teste beta e ainda não foi totalmente lançado.

9. NVIDIA lança supercomputador de IA generativa: apenas US$ 249, desempenho aprimorado em 1,7 vezes

O Jetson Orin Nano Super, lançado pela NVIDIA, é um supercomputador de IA generativa voltado para desenvolvedores, com preço de US$ 249 e desempenho significativamente aprimorado, adequado para vários cenários de aplicação de IA. Este dispositivo apresenta um aumento de 1,7 vezes no desempenho de IA generativa e também um progresso significativo na largura de banda de memória e capacidade de computação. Jensen Huang enfatizou que este dispositivo fornece desempenho computacional excepcional a um custo menor para desenvolvedores, mostrando um amplo potencial de aplicação em áreas como cidades inteligentes, agricultura e desenvolvimento de robôs, marcando um importante passo na popularização e aplicação da tecnologia de IA.

image.png

【Resumo AiBase:】

🚀 Melhoria de desempenho: O desempenho de IA generativa do Jetson Orin Nano Super foi aprimorado em 1,7 vezes, e a largura de banda de memória aumentou 50%.

💰 Preço acessível: O dispositivo custa US$ 249, adequado para uso por desenvolvedores, reduzindo a barreira de entrada para a tecnologia de IA.

🌍 Ampla aplicação: Suporta vários cenários de consumo de energia, aplicável a várias áreas, como cidades inteligentes, agricultura e robótica.

10. OpenAI declara: não há planos para lançar a API Sora por enquanto, a demanda por geração de vídeo ultrapassa as expectativas

A OpenAI anunciou recentemente que não há planos para lançar a API de seu modelo de geração de vídeo Sora por enquanto, devido à demanda dos usuários que ultrapassa as expectativas. O Sora pode gerar vídeos realistas com base em texto ou imagens, mas devido ao aumento repentino de solicitações de usuários, a OpenAI teve que suspender os novos registros de usuários. O CEO Sam Altman pediu desculpas por isso e enfatizou que levará tempo para resolver esse problema. Ao mesmo tempo, concorrentes como Google e AWS já lançaram suas próprias APIs de geração de vídeo, e a OpenAI enfrenta pressão de mercado, e sua estratégia futura está sendo observada de perto.

image.png

【Resumo AiBase:】

🌟 A OpenAI afirma que não há planos para lançar a API Sora por enquanto, devido à demanda que ultrapassa as expectativas.

📈 O Sora fechou temporariamente o registro devido ao aumento repentino de solicitações de usuários, e o CEO pediu desculpas por isso.

🤖 Concorrentes como Google e AWS já lançaram APIs de geração de vídeo, e a OpenAI enfrenta pressão.

11. IA "modifica" a dança de animais de estimação que se torna viral na internet: o bizarro e o absurdo se tornam a senha para o tráfego