Bulletin IA : ByteDance lance le modèle de compréhension visuelle Doubao ; Vidéos de pets dansant grâce à l'IA deviennent virales ; OpenAI ouvre l'API du modèle o1 ; iDream AI ajoute une fonctionnalité de création d'affiches

Bienvenue à la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du secteur de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits d'IA.

Nouveaux produits IA Cliquez ici pour en savoir plus : https://top.aibase.com/

1. ByteDance lance le grand modèle de raisonnement visuel Doubao : prix réduit à 0,003 yuan/mille tokens

Lors de la conférence FORCE de Volcano Engine, Tan Dai, président de Volcano Engine, a présenté le grand modèle de compréhension visuelle Doubao. Ce modèle, en combinant des informations textuelles et visuelles, présente des capacités exceptionnelles de reconnaissance et de raisonnement de contenu. La baisse significative du prix du nouveau modèle renforce la confiance des entreprises dans leur transition vers l'intelligence artificielle. L'utilisation quotidienne de tokens du grand modèle Doubao dépasse désormais les 4 000 milliards, témoignant d'une forte demande du marché et d'un potentiel d'application considérable.

【Résumé AiBase :】
🖼️ Le nouveau grand modèle de compréhension visuelle Doubao traite simultanément les informations textuelles et visuelles, améliorant ainsi la reconnaissance et le raisonnement du contenu.
💰 Depuis mai 2024, le prix du grand modèle Doubao a baissé de 99 %, facilitant son adoption par les entreprises.
📈 L'utilisation quotidienne de tokens du grand modèle Doubao dépasse actuellement les 4 000 milliards, soit une augmentation de plus de 33 fois, reflétant la demande du marché.

2. OpenAI ouvre l'API du modèle o1 complet : réduction des coûts de 60 %, nouvelles capacités de traitement visuel avancées

Au cours d'une série de diffusions en direct de 12 jours ouvrables, OpenAI a publié l'API du modèle o1 au neuvième jour et annoncé une mise à niveau majeure de l'API en temps réel, prenant en charge la technologie WebRTC. À compter de sa publication, OpenAI fournira l'accès à l'API o1 aux développeurs de niveau 5. Par rapport à la version préliminaire, l'API du modèle o1 mise à jour a réduit les coûts de traitement de 60 % et ajouté des capacités de traitement visuel avancées. Simultanément, les coûts de traitement audio de GPT-4o ont également diminué de 60 %, tandis que le prix de la version mini a baissé de 10 fois.

【Résumé AiBase :】
🚀 Lancement de l'API du modèle o1, prenant en charge la technologie WebRTC, améliorant ainsi les capacités d'interaction en temps réel.
💰 Réduction des coûts de 60 %, nouvelles capacités de traitement visuel avancées, améliorant l'expérience utilisateur.
📈 Plus de 300 millions d'utilisateurs actifs par semaine, témoignant de la croissance rapide de la base d'utilisateurs d'OpenAI.

3. Ideogram lance un outil de génération d'images par lots : adieu aux opérations fastidieuses, génération d'images créatives à grande échelle en un clic

La plateforme de génération d'images IA Ideogram a récemment lancé un outil de génération d'images par lots, visant à simplifier le processus de génération d'images par le téléchargement de fichiers de tableur. Les utilisateurs peuvent préremplir les invites et les paramètres dans un fichier CSV, et Ideogram générera automatiquement des images en fonction de ces informations. Cette innovation améliore considérablement l'efficacité des designers professionnels et des créatifs, réduisant les opérations fastidieuses de saisie individuelle. Cette fonctionnalité est actuellement uniquement disponible pour les utilisateurs d'Ideogram Pro, démontrant l'énorme potentiel de l'IA dans le domaine de la conception et les méthodes de création intelligentes.

【Résumé AiBase :】
🚀 L'outil de génération par lots permet aux utilisateurs de télécharger des tableaux contenant des invites, simplifiant ainsi le processus de génération d'images.
🖼️ Les utilisateurs n'ont qu'à télécharger le modèle, générer des invites et télécharger un fichier CSV pour générer automatiquement des images.
💼 Cette fonctionnalité est actuellement uniquement disponible pour les utilisateurs d'Ideogram Pro, offrant aux designers une expérience de création efficace.

4. Jimeng AI lance une fonction de création d'affiches : transformez les affiches statiques en affiches dynamiques en un clic

Jimeng AI a lancé une nouvelle fonction de création d'affiches lors de la conférence FORCE de Volcano Engine le 18 décembre 2024. Cette nouveauté marque une avancée importante dans le domaine de la génération d'images. Les utilisateurs n'ont qu'à saisir une simple description pour que le système génère rapidement des affiches créatives, simplifiant considérablement le temps et les compétences nécessaires à la conception traditionnelle. De plus, la nouvelle fonction de création d'affiches dynamiques offre aux créateurs de contenu des modes d'affichage plus riches, particulièrement adaptés aux médias sociaux et à la publicité, pour attirer efficacement l'attention du public et améliorer l'efficacité marketing.

【Résumé AiBase :】
🌟 Les utilisateurs n'ont besoin que d'une description pour générer rapidement des affiches créatives, simplifiant le processus de création.
🎥 Une nouvelle fonction de création d'affiches dynamiques rend les présentations plus vivantes, idéale pour les médias sociaux et la publicité.
📈 Jimeng AI prend en compte les besoins personnalisés des utilisateurs, offrant des options de génération de contenu flexibles pour soutenir la promotion des marques.

5. Lancement officiel de la version 1.5 de Kouzi : prise en charge des capacités multimodales, expérience immédiate du nouveau modèle Doubao

Kouzi Coze a lancé la nouvelle version 1.5 de Kouzi lors de la conférence FORCE de Volcano Engine, marquant une avancée importante dans le développement d'applications IA. Cette version prend en charge l'interface de création GUI, permettant aux utilisateurs de créer et de publier facilement diverses formes d'applications, réduisant considérablement le seuil de développement. Simultanément, Kouzi 1.5 améliore les capacités multimodales, prend en charge le dernier grand modèle Doubao, fournit de nombreux modèles et solutions, aidant les développeurs à améliorer leur efficacité et ayant déjà attiré plus d'un million de développeurs actifs.

【Résumé AiBase :】
🖥️ Kouzi 1.5 prend en charge l'interface de création GUI, permettant aux utilisateurs de publier facilement diverses formes d'applications en un clic, réduisant ainsi le seuil de développement.
🌐 Les capacités multimodales sont considérablement améliorées, prenant en charge les modèles de compréhension visuelle, de génération musicale et d'images Doubao, élargissant ainsi la portée des applications IA.
📊 Fournit une multitude de modèles de qualité supérieure, couvrant de nombreux scénarios métier, améliorant l'efficacité du développement et attirant plus d'un million de développeurs actifs.
Lien détaillé : https://www.coze.cn/docs/guides/vlm

6. ByteDance : le modèle de génération vidéo Doubao sera officiellement ouvert au public en janvier 2025

Lors de la conférence Volcano Engine FORCE · hiver 2024, Volcano Engine a présenté la nouvelle mise à niveau de la famille de grands modèles Doubao, avec une utilisation quotidienne de tokens dépassant les 4 000 milliards, une croissance significative. La conférence a présenté le modèle de compréhension visuelle et plusieurs mises à niveau de modèles, améliorant les capacités de traitement des tâches globales du modèle général Doubao Pro. De plus, Volcano Engine a lancé le modèle de génération 3D veOmniverse + Doubao, et annoncé que le modèle de génération vidéo Doubao serait officiellement ouvert au public en janvier 2025, marquant le développement approfondi de la technologie des grands modèles.

【Résumé AiBase :】
🌟 L'utilisation quotidienne de tokens du grand modèle Doubao dépasse les 4 000 milliards, soit une augmentation de plus de 33 fois, démontrant une large application.
🛠️ Le nouveau modèle de génération 3D veOmniverse + Doubao prend en charge la génération et l'édition d'actifs 3D haute fidélité, améliorant les capacités de création AIGC.
📅 Le modèle de génération vidéo Doubao sera officiellement ouvert au public en janvier 2025, les utilisateurs peuvent s'inscrire pour l'essayer.

7. Lancement de la recherche IA omnicanale de ByteDance Volcano Engine : prise en charge de la recherche multimodale

Lors de la conférence Volcano Engine FORCE · hiver 2024, ByteDance a lancé le service de recherche IA omnicanal, visant à améliorer la précision des recommandations et la capacité de découverte d'informations des entreprises en intégrant diverses informations et exigences. Ce service, basé sur le puissant moteur de recherche et de recommandation A1, prend en charge la compréhension multimodale, capable de traiter rapidement un volume massif de contenu et de fournir des réponses en temps réel aux sujets d'actualité, améliorant ainsi l'expérience utilisateur. Simultanément, Volcano Engine a également lancé une solution de mémoire pour les grands modèles, aidant les clients à construire un système de mémoire efficace, une direction importante du développement des grands modèles.

【Résumé AiBase :】
🌐 La recherche IA omnicanale de Volcano Engine intègre la recherche contextuelle, les informations privées des entreprises et les services de questions-réponses en ligne, améliorant la précision des recommandations d'informations.
⚙️ Le moteur de recherche et de recommandation A1 utilise la technologie de la famille de grands modèles Doubao, prenant en charge la compréhension multimodale de texte, d'images, d'audio et de vidéo, adapté à divers scénarios d'application.
💡 La solution de mémoire pour les grands modèles combine le cache contextuel et la technologie RAG, aidant les clients à construire un système de mémoire efficace, améliorant les capacités de mémoire des grands modèles.

8. WeChat lance la nouvelle fonctionnalité « Voix de lecture de l'auteur »

La fonctionnalité « Voix de lecture de l'auteur » lancée par la plateforme WeChat permet aux auteurs de comptes officiels de doubler leurs articles avec une voix personnalisée, améliorant l'interactivité et la personnalisation de l'expérience de lecture. Les auteurs doivent télécharger l'application « Assistant compte officiel » pour enregistrer leur voix, reproduire leur ton et leurs émotions personnels, et peuvent ensuite l'utiliser dans leurs comptes officiels. Cette fonctionnalité est actuellement en phase de test bêta et n'est pas encore entièrement disponible. WeChat encourage les créateurs à patienter. Cette initiative marque une avancée importante de WeChat dans l'amélioration de l'expérience utilisateur et la satisfaction des besoins des créateurs, et devrait enrichir les formes d'expression du contenu des comptes officiels.

微信截图_20241218142646.png

【Résumé AiBase :】
🎧 Les auteurs peuvent doubler leurs articles avec une voix personnalisée, améliorant ainsi l'expérience interactive.
📱 Il est nécessaire de télécharger l'application « Assistant compte officiel » pour enregistrer la voix et reproduire le style personnel.
🔄 La fonctionnalité est actuellement en phase de test bêta et n'est pas encore entièrement disponible.

9. NVIDIA lance un superordinateur IA générative : seulement 249 $, amélioration des performances de 1,7 fois

Le Jetson Orin Nano Super, lancé par NVIDIA, est un superordinateur IA générative destiné aux développeurs, au prix de 249 $, avec une amélioration significative des performances, adapté à divers scénarios d'application IA. Cet appareil améliore les performances de l'IA générative de 1,7 fois, et présente également des progrès significatifs en termes de bande passante mémoire et de capacité de calcul. Jensen Huang a souligné que cet appareil offre aux développeurs des performances de calcul exceptionnelles à moindre coût, démontrant un vaste potentiel d'application dans les domaines des villes intelligentes, de l'agriculture et du développement robotique, marquant une étape importante dans la vulgarisation et l'application de la technologie IA.

【Résumé AiBase :】
🚀 Amélioration des performances : les performances de l'IA générative du Jetson Orin Nano Super ont été améliorées de 1,7 fois, et la bande passante mémoire de 50 %.
💰 Prix abordable : cet appareil est proposé au prix de 249 $, adapté aux développeurs, réduisant ainsi le seuil d'accès à la technologie IA.
🌍 Applications étendues : prend en charge divers scénarios de consommation énergétique, adapté aux villes intelligentes, à l'agriculture et à la robotique.

10. OpenAI déclare : aucun projet de lancement de l'API Sora pour le moment, la demande de génération vidéo dépasse les attentes

OpenAI a récemment annoncé qu'il n'avait aucun projet de lancement de l'API de son modèle de génération vidéo Sora pour le moment, en raison d'une demande utilisateur dépassant de loin les attentes. Sora est capable de générer des vidéos réalistes à partir de texte ou d'images, mais en raison de l'augmentation soudaine des demandes d'inscription, OpenAI a dû suspendre les inscriptions de nouveaux utilisateurs. Le PDG Sam Altman a présenté ses excuses et a souligné que la résolution de ce problème prendrait du temps. Simultanément, des concurrents tels que Google et AWS ont lancé leurs propres API de génération vidéo, et OpenAI est confronté à une pression concurrentielle, sa stratégie future étant très attendue.

【Résumé AiBase :】
🌟 OpenAI indique qu'il n'a aucun projet de lancement de l'API Sora pour le moment, en raison d'une demande dépassant les attentes.

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Bulletin IA : ByteDance lance le modèle de compréhension visuelle Doubao ; Vidéos de pets dansant grâce à l'IA deviennent virales ; OpenAI ouvre l'API du modèle o1 ; iDream AI ajoute une fonctionnalité de création d'affiches

站长之家

Cet article provient d'AIbase Daily

Recommandations d'actualités IA connexes

L'équipe nationale fait l'histoire ! Le dernier examen de l'humanité obtient pour la première fois plus de 30 points, la concurrence des IA s'intensifie à nouveau !

Journal AI : Alibaba TONGYI lance un modèle de génération audio open source appelé ThinkSound ; Google Veo3 génère des vidéos à partir d'images ; Feishu dévoile des dizaines de nouveaux produits IA

Kunlun Wildfire lance Skywork-R1V 3.0 : Les capacités de raisonnement multimodal s'approchent de celles des experts humains !

Le premier système de questions-réponses basé sur l'IA à Hong Kong est lancé, vous emmenant à explorer l'ère de l'intelligence artificielle

Mistral cherche un financement de 1 milliard de dollars pour viser le trône de l'IA en Europe !

Lancement de plusieurs nouveaux produits d'IA par Feishu, pour aider les entreprises à créer un nouvel écosystème de bureau intelligent !

OpenAI embauche de manière agressive quatre ingénieurs de haut niveau pour soutenir le projet Porte des étoiles

Hugging Face lance un grand projet open source SmolLM3 : un petit modèle de 3 milliards de paramètres qui rivalise avec les géants de 4 milliards, une capacité contextuelle de 128K qui mène une nouvelle vague d'IA efficace !

Vidu Q1 : mise à niveau impressionnante : prise en charge de la conversion en vidéo jusqu'à sept images, la génération de vidéos intelligentes atteint un nouveau sommet

Lancement majeur de plusieurs nouveaux produits d'IA par Feishu, création d'un 'Dou Bao' pour les entreprises