Boletim Diário de IA: ByteDance lança o modelo de compreensão visual Doubao; vídeos de animais de estimação modificados com IA viralizam; OpenAI libera a API do modelo o1 completo; recurso de geração de pôsteres lançado no JiMeng AI

Bem-vindo à coluna 【AI日报】! Aqui você encontrará seu guia diário para explorar o mundo da inteligência artificial. Todos os dias, apresentamos os principais destaques do campo da IA, focando em desenvolvedores e ajudando você a entender as tendências tecnológicas e os aplicativos inovadores de produtos de IA.

Novos produtos de IA Clique para saber mais: https://top.aibase.com/

1. ByteDance lança o grande modelo de raciocínio visual Doubao: preço tão baixo quanto 0,003 yuan/mil token

Na conferência Volcano Engine FORCE, o presidente da Volcano Engine, Tan Dai, lançou o grande modelo de compreensão visual Doubao. Este modelo, combinando informações de texto e imagem, demonstra uma capacidade excepcional de reconhecimento e raciocínio de conteúdo. O preço do novo modelo foi reduzido significativamente, dando mais confiança aos usuários corporativos em sua transformação para a inteligência artificial. O uso diário de tokens do grande modelo Doubao já ultrapassou 4 trilhões, mostrando uma forte demanda de mercado e potencial de aplicação.

【Resumo AiBase:】
🖼️ O novo grande modelo de compreensão visual Doubao pode processar simultaneamente informações de texto e imagem, melhorando a capacidade de reconhecimento e raciocínio de conteúdo.
💰 Desde maio deste ano, o preço do grande modelo Doubao no setor caiu 99%, tornando mais fácil para os usuários corporativos adotarem essa tecnologia.
📈 Atualmente, o uso diário de tokens do grande modelo Doubao ultrapassa 4 trilhões, um aumento de mais de 33 vezes, mostrando sua demanda de mercado.

2. OpenAI abre a API do modelo o1 completo: custo reduzido em 60%, nova capacidade avançada de processamento visual

Em uma série de transmissões ao vivo contínuas de 12 dias úteis, a OpenAI lançou a API do modelo o1 para desenvolvedores no 9º dia e anunciou uma grande atualização para a API em tempo real, com suporte à tecnologia WebRTC. A partir da data de lançamento, a OpenAI fornecerá acesso à API o1 aos desenvolvedores com nível 5 de uso da API. Em comparação com a versão de visualização anterior, a API do modelo o1 desta atualização reduziu o custo de processamento em 60% e adicionou capacidades avançadas de processamento visual. Ao mesmo tempo, o custo do GPT-4o no processamento de áudio também foi reduzido em 60%, enquanto o preço da versão mini caiu 10 vezes.

【Resumo AiBase:】
🚀 Lançamento da API do modelo o1, com suporte à tecnologia WebRTC, melhorando a capacidade de interação em tempo real.
💰 Redução de custo de 60%, novas capacidades avançadas de processamento visual, melhorando a experiência do usuário.
📈 Mais de 300 milhões de usuários ativos por semana, mostrando o rápido crescimento da base de usuários da OpenAI.

3. Ideogram lança ferramenta de geração de imagens em lote: diga adeus às operações complexas, geração de imagens criativas em larga escala com um único clique

A plataforma de geração de imagens de IA Ideogram lançou recentemente uma ferramenta de geração de imagens em lote, com o objetivo de simplificar o processo de geração de imagens por meio do upload de arquivos de planilha. Os usuários podem preencher previamente as instruções e configurações em um arquivo CSV, e o Ideogram gerará imagens automaticamente com base nessas informações. Essa inovação aumenta significativamente a eficiência de trabalho de designers profissionais e criativos, reduzindo as operações complexas de entrada individual. Este recurso está atualmente disponível apenas para usuários do Ideogram Pro, mostrando o enorme potencial da IA na área de design e a forma inteligente de criação.

【Resumo AiBase:】
🚀 A ferramenta de geração em lote permite que os usuários carreguem planilhas contendo prompts, simplificando o processo de geração de imagens.
🖼️ Os usuários precisam apenas baixar o modelo, gerar prompts e carregar o arquivo CSV para gerar imagens automaticamente.
💼 Este recurso está atualmente disponível apenas para usuários do Ideogram Pro, oferecendo uma experiência de criação eficiente para designers.

4. JiMeng AI lança função de geração de pôsteres: transforme pôsteres estáticos em pôsteres dinâmicos com um clique

Na conferência Volcano Engine FORCE de 18 de dezembro de 2024, a JiMeng AI lançou um novo recurso de geração de pôsteres. O lançamento dessa tecnologia marca um importante avanço na área de geração de imagens. Os usuários precisam apenas inserir uma descrição simples, e o sistema pode gerar rapidamente um pôster criativo, simplificando significativamente o tempo e as habilidades necessárias para o design tradicional. Além disso, o novo recurso de geração de pôsteres dinâmicos oferece aos criadores de conteúdo formas mais ricas de apresentação, especialmente adequado para mídias sociais e publicidade, podendo atrair eficazmente a atenção do público e melhorar a eficácia do marketing.

【Resumo AiBase:】
🌟 Os usuários precisam apenas de uma descrição para gerar rapidamente pôsteres criativos, simplificando o processo de criação.
🎥 Novo recurso de geração de pôsteres dinâmicos, tornando a apresentação das obras mais vívida, adequado para mídias sociais e publicidade.
📈 A JiMeng AI considera as necessidades personalizadas dos usuários, oferecendo opções flexíveis de geração de conteúdo para auxiliar na promoção da marca.

5. Lançamento oficial da versão 1.5 do Kouzi: suporte para capacidade multimodal, experimente o novo modelo Doubao em primeira mão

Na conferência Volcano Engine FORCE, a Kouzi Coze lançou a nova versão 1.5 do Kouzi, marcando um importante avanço no desenvolvimento de aplicativos de IA. Esta versão suporta uma interface de construção GUI, permitindo que os usuários criem e publiquem facilmente vários formatos de aplicativos, reduzindo significativamente a barreira de entrada para o desenvolvimento. Ao mesmo tempo, o Kouzi 1.5 aprimorou sua capacidade multimodal, suportando o mais recente grande modelo Doubao, fornecendo modelos e soluções abrangentes para ajudar os desenvolvedores a melhorar a eficiência, atraindo mais de 1 milhão de desenvolvedores ativos.

【Resumo AiBase:】
🖥️ O Kouzi 1.5 suporta uma interface de construção GUI, permitindo que os usuários publiquem vários formatos de aplicativos com um clique, reduzindo a barreira de entrada para o desenvolvimento.
🌐 A capacidade multimodal foi significativamente aprimorada, suportando os modelos de compreensão visual, música e geração de imagens Doubao, expandindo a gama de aplicativos de IA.
📊 Fornece uma grande quantidade de modelos de alta qualidade, cobrindo vários cenários de negócios, melhorando a eficiência de desenvolvimento e atraindo mais de 1 milhão de desenvolvedores ativos.
Link para detalhes: https://www.coze.cn/docs/guides/vlm

6. ByteDance: o modelo de geração de vídeo Doubao será oficialmente aberto ao público em janeiro de 2025

Na conferência Volcano Engine FORCE · Inverno de 2024, a Volcano Engine mostrou a nova atualização da família de grandes modelos Doubao, com uso diário de tokens ultrapassando 4 trilhões, mostrando um crescimento significativo. A conferência lançou o modelo de compreensão visual e várias atualizações de modelos, melhorando a capacidade de processamento de tarefas abrangentes do modelo Doubao universal pro. Além disso, a Volcano Engine lançou o modelo de geração 3D veOmniverse + Doubao, que suporta criação AIGC, e anunciou que o modelo de geração de vídeo Doubao será oficialmente aberto ao público em janeiro de 2025, marcando o desenvolvimento aprofundado da tecnologia de grandes modelos.

【Resumo AiBase:】
🌟 O uso diário de tokens do grande modelo Doubao ultrapassa 4 trilhões, um aumento de mais de 33 vezes, mostrando ampla aplicação.
🛠️ O novo modelo de geração 3D veOmniverse + Doubao suporta geração e edição de ativos 3D de alta fidelidade, melhorando a capacidade de criação AIGC.
📅 O modelo de geração de vídeo Doubao será oficialmente aberto ao público em janeiro de 2025, os usuários podem fazer reservas para experimentar.

7. Lançamento da busca de IA em toda a web da ByteDance Volcano Engine: suporte para busca multimodal

Na conferência Volcano Engine FORCE · Inverno de 2024, a ByteDance lançou o serviço de busca de IA em toda a web, com o objetivo de melhorar a precisão de recomendação e a capacidade de descoberta de informações das empresas, integrando várias informações e necessidades. Este serviço, baseado no poderoso mecanismo de busca e recomendação A1, suporta compreensão multimodal, podendo processar rapidamente uma grande quantidade de conteúdo e fornecer respostas em tempo real sobre tópicos quentes, melhorando a experiência do usuário. Ao mesmo tempo, a Volcano Engine também lançou um esquema de memória de grande modelo para ajudar os clientes a construir sistemas de memória eficientes, uma importante direção para o desenvolvimento de grandes modelos.

【Resumo AiBase:】
🌐 A busca de IA em toda a web da Volcano Engine integra serviços de busca contextualizada, informações privadas da empresa e perguntas e respostas online, melhorando a precisão das recomendações de informações.
⚙️ O mecanismo de busca e recomendação A1 utiliza a tecnologia da família de grandes modelos Doubao, suportando compreensão multimodal de texto, imagem, áudio e vídeo, aplicável a vários cenários.
💡 O esquema de memória de grande modelo combina cache de contexto e tecnologia RAG para ajudar os clientes a construir sistemas de memória eficazes, melhorando a capacidade de memória do grande modelo.

8. WeChat lança nova capacidade de "tom de voz do autor"

O recurso "tom de voz do autor" lançado pela plataforma WeChat permite que os autores de contas públicas adicionem dublagem personalizada em áudio aos seus artigos, melhorando a interatividade e a personalização da experiência de leitura. Os autores precisam baixar o aplicativo "Assistente de Conta Pública" para gravar o áudio, replicando seu tom e emoções pessoais, e podem usá-lo em suas contas públicas. Este recurso está atualmente em teste beta e ainda não foi totalmente lançado. O WeChat incentiva os criadores a aguardarem pacientemente. Isso marca um importante avanço do WeChat em melhorar a experiência do usuário e atender às necessidades dos criadores, e espera-se que enriqueça as formas de apresentação de conteúdo de contas públicas.

微信截图_20241218142646.png

【Resumo AiBase:】
🎧 Os autores podem adicionar dublagem personalizada em áudio aos seus artigos para melhorar a experiência interativa.
📱 É necessário baixar o aplicativo "Assistente de Conta Pública" para gravar o áudio, replicando o estilo pessoal.
🔄 O recurso está atualmente em teste beta e ainda não foi totalmente lançado.

9. NVIDIA lança supercomputador de IA generativa: apenas US$ 249, desempenho aprimorado em 1,7 vezes

O Jetson Orin Nano Super, lançado pela NVIDIA, é um supercomputador de IA generativa voltado para desenvolvedores, com preço de US$ 249 e desempenho significativamente aprimorado, adequado para vários cenários de aplicação de IA. Este dispositivo apresenta um aumento de 1,7 vezes no desempenho de IA generativa e também um progresso significativo na largura de banda de memória e capacidade de computação. Jensen Huang enfatizou que este dispositivo fornece desempenho computacional excepcional a um custo menor para desenvolvedores, mostrando um amplo potencial de aplicação em áreas como cidades inteligentes, agricultura e desenvolvimento de robôs, marcando um importante passo na popularização e aplicação da tecnologia de IA.

【Resumo AiBase:】
🚀 Melhoria de desempenho: O desempenho de IA generativa do Jetson Orin Nano Super foi aprimorado em 1,7 vezes, e a largura de banda de memória aumentou 50%.
💰 Preço acessível: O dispositivo custa US$ 249, adequado para uso por desenvolvedores, reduzindo a barreira de entrada para a tecnologia de IA.
🌍 Ampla aplicação: Suporta vários cenários de consumo de energia, aplicável a várias áreas, como cidades inteligentes, agricultura e robótica.

10. OpenAI declara: não há planos para lançar a API Sora por enquanto, a demanda por geração de vídeo ultrapassa as expectativas

A OpenAI anunciou recentemente que não há planos para lançar a API de seu modelo de geração de vídeo Sora por enquanto, devido à demanda dos usuários que ultrapassa as expectativas. O Sora pode gerar vídeos realistas com base em texto ou imagens, mas devido ao aumento repentino de solicitações de usuários, a OpenAI teve que suspender os novos registros de usuários. O CEO Sam Altman pediu desculpas por isso e enfatizou que levará tempo para resolver esse problema. Ao mesmo tempo, concorrentes como Google e AWS já lançaram suas próprias APIs de geração de vídeo, e a OpenAI enfrenta pressão de mercado, e sua estratégia futura está sendo observada de perto.

【Resumo AiBase:】
🌟 A OpenAI afirma que não há planos para lançar a API Sora por enquanto, devido à demanda que ultrapassa as expectativas.
📈 O Sora fechou temporariamente o registro devido ao aumento repentino de solicitações de usuários, e o CEO pediu desculpas por isso.
🤖 Concorrentes como Google e AWS já lançaram APIs de geração de vídeo, e a OpenAI enfrenta pressão.

11. IA "modifica" a dança de animais de estimação que se torna viral na internet: o bizarro e o absurdo se tornam a senha para o tráfego

Notícias de IA

IA Diário

Linha do Tempo da IA

Al hardware

Casos Recentes

Coleção de Imagens

Coleção de Vídeos

Coleção de Áudios

Coleção de Conteúdo

Tutoriais Recentes

Ranking de Produtos de IA

Ranking de Crescimento de Tráfego de IA

Ranking de Queda de Tráfego de IA

Ranking Semanal de IA

Estados Unidos

China

Índia

Brasil

Geração de Imagens

Assistente Pessoal

Geração de Personagens

Geração de Vídeos

Ranking de Projetos de IA

Ranking de Crescimento de Projetos de IA

Ranking de Desenvolvedores de IA

Ranking de Organizações de IA

Deepseek

TTS

LLM

ChatGPT

Visão Geral

Boletim Diário de IA: ByteDance lança o modelo de compreensão visual Doubao; vídeos de animais de estimação modificados com IA viralizam; OpenAI libera a API do modelo o1 completo; recurso de geração de pôsteres lançado no JiMeng AI

站长之家

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

A Feidu Tech lança o modelo Zhenrong, marcando uma nova era inteligente para os gêmeos digitais!

Stream-Omni: Suporta simultaneamente diferentes combinações de interações multimodais Inicie a combinação de texto, visão e voz

Assistente de mesa de IA de código aberto Glass se torna popular, registrando em tempo real reuniões e capturando inspirações

Jornal AI: Bilibili pode lançar ferramenta de criação de IA com o código-nome H; Zhiyuan lança o robô Nao X2-N; Yushu Technology busca IPO na bolsa Sci-Tech

Claude lança o modelo Claude Neptune v3 com capacidades matemáticas excepcionais

Melhor trabalhador! Homem da Índia ganha salário de 5 empresas de inteligência artificial da Califórnia com um currículo

Yushu Technology busca a IPO no Sci-Tech Innovation Board, valorização de bilhões de yuans conta com apoio financeiro de Alibaba e Tencent

Vídeos de aula de celebridades de IA: Crie o Kanye ensinando álgebra com custo zero, monetize facilmente milhões de visualizações

Zhhyuan lança o robô Nao X2-N: pode alternar entre forma de roda e forma de perna

Indústria de seguros se opõe ao projeto de lei estadual que propõe uma pausa de dez anos para a regulamentação da inteligência artificial