Le 30 juillet, lors de l'événement FORCE Link AI Innovation Tour · Xiamen, organisé par Volc Engine, le groupe a présenté les nouveaux modèles de la série Doubao ainsi que les résultats d'amélioration des services cloud-native d'IA, notamment le modèle de modification d'images Doubao 3.0, le modèle de traduction simultanée Doubao 2.0, ainsi que la nouvelle série de modèles de grande taille Doubao 1.6. En outre, Volc Engine a lancé des outils tels que l'ouverture du cœur de la plateforme Kousi et des solutions de gestion de modèles internes pour les entreprises, offrant un soutien complet pour construire des Agents et déployer des applications IA.
Photo : Tan Dai, président de Volc Engine, présente le dernier modèle Doubao
Les nouveaux modèles de la série Doubao sont désormais accessibles aux entreprises
Pour répondre aux problèmes courants dans l'édition d'images IA tels que "ne pas comprendre les instructions, modifier par erreur le contenu ou avoir un rendu insuffisant", Volc Engine a lancé le modèle de modification d'images Doubao 3.0 (SeedEdit3.0). Ce modèle améliore la capacité à suivre les instructions, à conserver les images et à produire un meilleur rendu, permettant aux utilisateurs d’effectuer des opérations telles qu'enlever les éléments superflus, ajuster la lumière, remplacer des éléments, ou encore changer le style, le matériau ou la posture uniquement en utilisant le langage naturel. Ce modèle est largement utilisé dans la création visuelle et le marketing publicitaire. Les utilisateurs professionnels peuvent appeler son API via Volc Ark, tandis que les particuliers peuvent l'utiliser via Ji Meng ou l'application Doubao.
Le nouveau modèle de traduction simultanée Doubao 2.0 (Seed-LiveInterpret2.0) a rompu les limites des modèles en cascade traditionnels en adoptant une architecture à double flux, réduisant le délai vocal de 8 à 10 secondes à seulement 2 à 3 secondes, ce qui permet la génération synchrone de texte et de voix. Il prend également en charge la reproduction de voix sans échantillon, générant en temps réel une voix avec la même tonalité qu'une langue étrangère, voire en imitant des accents locaux, améliorant ainsi l'immersion dans les communications multilingues.
La série de grands modèles Doubao 1.6 a également été mise à niveau. Le modèle rapide Doubao-Seed-1.6-flash conserve sa forte capacité de compréhension visuelle tout en renforçant ses capacités en code, en raisonnement et en mathématiques, adaptant ainsi des scénarios commerciaux à grande échelle tels que l'inspection intelligente ou l'assistant mobile. Son temps de sortie du premier token (TPOT) atteint 10 ms, ce qui est leader sur le marché ; quant au coût, pour une longueur de texte d'entrée allant de 0 à 32k tokens (la plupart utilisée par les entreprises), le prix est de 0,15 yuan par million de tokens entrants et de 1,5 yuan pour les sorties. Dans les cas d'utilisation clients, cela a permis une baisse de 60 % du délai et une réduction de 70 % des coûts.
Aussi, le modèle vectoriel multimodal Seed1.6-Embedding a réalisé pour la première fois une recherche fusionnant les modes textuels, images et vidéos, aidant les entreprises à construire des bases de connaissances multimodales plus puissantes. Sur les tests officiels, il a obtenu les meilleurs résultats pour les tâches multimodales et les textes en chinois.
Optimisation des services cloud-native d'IA pour accélérer le déploiement des Agents
Pour aider les entreprises à développer et déployer efficacement des Agents, Volc Engine continue d'optimiser ses services cloud-native d'IA. Le 26 juillet, les fonctionnalités principales de la plateforme Kousi ont été open-sourcées, comprenant l'outil visuel intégré « Kousi Studio » et l'outil de gestion complet « Kousi Loop », sous licence Apache 2.0. Les utilisateurs peuvent télécharger ces outils sur GitHub. Trois jours après le lancement, le nombre d'étoiles pour Kousi Studio a dépassé 10 000, et celui de Kousi Loop a dépassé 3 000. Volc Engine propose un soutien complet, permettant aux plateformes d'IA d'entreprises comme HiAgent d'appeler ces fonctions, et les produits de base du cloud permettent un déploiement en un clic.
Pour les entreprises souhaitant personnaliser leurs modèles, Volc Engine propose une solution de gestion de modèles propres via le module de modèles de Volc Ark. Les entreprises n'ont pas besoin de gérer les ressources GPU ou les configurations complexes, mais peuvent bénéficier d'un service complet de gestion de leur modèle, d'une capacité de calcul flexible, d'un choix personnalisé pour le déploiement et le type de machine, d'un contrôle précis du délai, et ne paient pas pour les périodes de faible activité. Cette solution est actuellement disponible en bêta.
En outre, Volc Ark a mis à jour son système d'API avec l'introduction de Responses API. Cet API dispose d'une gestion native du contexte, supporte la gestion en chaîne des dialogues multi-tours et la liaison de données multimodales telles que le texte et les images. Grâce à sa capacité de cache, il réduit les coûts de 80 %. Il permet aussi d'associer plusieurs outils et modèles dans une seule demande, réduisant le développement d’un assistant intelligent de 460 lignes de code et de 1 à 2 jours à seulement 60 lignes de code et 1 heure, augmentant ainsi significativement l'efficacité.
Ces nouvelles annonces renforcent davantage l'écosystème d'IA de Volc Engine, offrant un soutien complet aux entreprises et développeurs, de la base de modèles aux outils de développement, accélérant ainsi l'application de l'IA dans tous les secteurs.