Bienvenue à la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits IA.

Nouveaux produits IA Cliquez ici pour en savoir plus : https://top.aibase.com/

1、Keling AI lance la version 1.5 : vidéos plus stables et haute définition, même les personnes en mouvement sont parfaitement nettes

La version 1.5 récemment lancée par Keling AI apporte des fonctionnalités et des améliorations impressionnantes, améliorant considérablement la quantité et la qualité de la génération de vidéos, et élargissant les limites de l'IA dans le domaine des médias créatifs. La qualité d'image a été considérablement améliorée, avec la prise en charge de vidéos HD 1080p de 10 secondes. La réactivité au texte a été améliorée, l'esthétique raffinée, la cohérence des personnages renforcée et la cohérence des objets améliorée.

【Résumé AiBase :】

🚀 La capacité de génération de vidéos de la version 1.5 est considérablement améliorée, permettant de générer jusqu'à 4 vidéos simultanément. La fonction de génération de vidéos à partir d'images permet de générer des vidéos HD 1080p d'une durée maximale de 10 secondes.

🎨 La version 1.0 a ajouté une fonction de « pinceau de mouvement », offrant un contrôle plus précis du mouvement et une représentation plus vivante, élargissant ainsi l'espace créatif des vidéastes.

💡 La capacité de compréhension du texte a été considérablement améliorée. La version 1.5 a apporté des améliorations significatives en termes de qualité d'image, de représentation dynamique et de respect des instructions textuelles, avec une amélioration globale de 95 %.

Lien détaillé : https://top.aibase.com/tool/keling-ai

2、ByteDance lance Seed-Music, un outil magique de génération de musique, prenant en charge diverses entrées et un contrôle précis

ByteDance a récemment lancé Seed-Music, un nouvel outil de création musicale permettant aux utilisateurs de générer de la musique de plusieurs manières, telles que des descriptions textuelles, des références audio, des partitions, voire des invites vocales. Ce modèle magique combine un modèle linguistique autorégressif et un modèle de diffusion pour générer des œuvres musicales de haute qualité, tout en offrant un contrôle précis. Les utilisateurs peuvent ajouter des paroles, modifier des mélodies, ou même télécharger des extraits vocaux pour les transformer en chants. Fonctionnel et efficace.

【Résumé AiBase :】

🎵 Seed-Music combine un modèle linguistique autorégressif et un modèle de diffusion pour générer des œuvres musicales de haute qualité, permettant aux utilisateurs de contrôler précisément les détails musicaux.

🎶 Les fonctionnalités incluent la génération vocale et instrumentale, la synthèse vocale, la conversion vocale et l'édition musicale, pour répondre aux besoins des différents utilisateurs.

🎼 L'architecture de Seed-Music est divisée en modules d'apprentissage de la représentation, de génération et de rendu, permettant de générer de la musique de haute qualité à partir d'entrées multimodales.

Lien détaillé : https://team.doubao.com/en/special/seed-music

3、Alibaba open-source la série de modèles Qwen2.5 de Tongyi Qianwen : Qwen2-VL-72B rivalise avec GPT-4

L'équipe Tongyi Qianwen a annoncé l'open-source de la série de modèles Qwen2.5, comprenant les modèles linguistiques généraux Qwen2.5, Qwen2.5-Coder et Qwen2.5-Math, pré-entraînés sur un ensemble de données de 18 T tokens, améliorant l'acquisition de connaissances, la programmation et les capacités mathématiques. Il prend en charge le traitement de longs textes, générant jusqu'à 8 000 tokens de contenu, tout en conservant la prise en charge de plus de 29 langues. Plusieurs versions de tailles différentes sont disponibles, sous licence Apache 2.0. Les performances du modèle Qwen2-VL-72B sont comparables à celles de GPT-4, avec des améliorations significatives dans l'exécution des instructions, la génération de longs textes, la compréhension des données et la sortie structurée.

image.png

【Résumé AiBase :】

🚀 La série de modèles Qwen2.5 est open-source, comprenant des modèles linguistiques généraux et des modèles de domaines spécialisés, améliorant l'acquisition de connaissances, la programmation et les capacités mathématiques.

💡 Le modèle prend en charge le traitement de longs textes, générant jusqu'à 8 000 tokens de contenu, et prend en charge plus de 29 langues.

💻 Le modèle Qwen2-VL-72B a subi des améliorations significatives, affichant d'excellents résultats dans l'exécution des instructions, la génération de longs textes, la compréhension des données et la sortie structurée.

Lien détaillé : https://modelscope.cn/studios/qwen/Qwen2.5

4、Le modèle de génération de vidéos « AI生视频 » de Tongyi Wanxiang d'Alibaba est officiellement lancé

Le modèle de génération de vidéos IA Tongyi Wanxiang, lancé par Alibaba, est officiellement disponible. Il possède une puissante capacité de génération dynamique d'images visuelles, prenant en charge la génération de contenu vidéo de différents styles artistiques et d'une qualité cinématographique. Ce modèle a optimisé la représentation des éléments chinois, prend en charge les entrées multilingues et la génération de résolutions variables. Ses applications sont vastes, il est proposé gratuitement et dispose d'une fonction de génération audio, simplifiant ainsi le processus de création de vidéos.

image.png

【Résumé AiBase :】

⚙️ Le modèle de génération de vidéos IA Tongyi Wanxiang possède une puissante capacité de génération dynamique d'images visuelles, prenant en charge la génération de contenu vidéo de différents styles artistiques et d'une qualité cinématographique.

🌟 Il a optimisé la représentation des éléments chinois, présentant un avantage unique dans la génération de contenu au style chinois. Il prend en charge les entrées multilingues et la génération de résolutions variables, pour répondre aux besoins des différents utilisateurs.

🎬 Il est proposé gratuitement et prend en charge la génération audio pour le contenu vidéo, simplifiant le processus de création de vidéos et permettant une synchronisation audiovisuelle pour une meilleure efficacité de création.

Lien détaillé : https://tongyi.aliyun.com/wanxiang/wanxvideo

5、Produit par Tencent ! EzAudio AI, un modèle audio IA qui transforme le texte en voix réaliste en quelques secondes

Récemment, le modèle EzAudio, développé conjointement par l'Université Johns Hopkins et les laboratoires IA de Tencent, marque une avancée majeure dans la technologie audio. Ce modèle génère des échantillons audio de haute qualité grâce à une architecture et des techniques innovantes, et possède un potentiel d'application considérable. Avec le développement de la technologie, les questions d'éthique et d'utilisation responsable deviennent de plus en plus importantes. Le code de recherche ouvert d'EzAudio offre une large possibilité de tester les risques et les bénéfices futurs.

image.png

【Résumé AiBase :】

🌟 EzAudio est un nouveau modèle de génération audio à partir de texte développé en collaboration entre l'Université Johns Hopkins et Tencent, marquant une avancée majeure dans la technologie audio.

🎧 Grâce à son architecture et à ses techniques innovantes, la qualité des échantillons audio générés par ce modèle est supérieure à celle des modèles open source existants, et possède un potentiel d'application considérable.

⚖️ Avec le développement de la technologie, les questions d'éthique et d'utilisation responsable deviennent de plus en plus importantes. Le code de recherche ouvert d'EzAudio offre une large possibilité de tester les risques et les bénéfices futurs.

Lien détaillé : https://huggingface.co/spaces/OpenSound/EzAudio

6、Giant Network publie ses propres modèles de personnages GiantGPT et de voix BaiLing-TTS

Lors de la cérémonie d'ouverture de la conférence Cloud Computing 2024, Giant Network a présenté ses derniers résultats dans le domaine « jeux + IA », notamment les applications de grands modèles tels que GiantGPT et BaiLing-TTS, ainsi que de nouvelles technologies telles que les personnages numériques IA et la plateforme de peinture IA Giant Mojing. L'entreprise a présenté des grands modèles de jeux hautement optimisés et des grands modèles vocaux prenant en charge plusieurs dialectes, tout en lançant une nouvelle identité de marque et en ouvrant les demandes de test bêta de sa plateforme de peinture IA. Giant Network a également présenté une technologie de personnages numériques interactifs en temps réel de haute précision, exprimant sa détermination à continuer à se consacrer au domaine « jeux + IA ».

【Résumé AiBase :】

🎮 GiantGPT est un grand modèle vertical axé sur les jeux, entraîné en combinant des données propriétaires et des données publiques sur Internet, optimisant en profondeur les capacités de base.

🗣 BaiLing-TTS est un grand modèle vocal prenant en charge plusieurs dialectes du mandarin, capable de générer des voix dans plusieurs dialectes.

🖌 La plateforme de peinture IA Giant Mojing est une plateforme cloud tout-en-un prenant en charge la collaboration d'équipe et le traitement par lots du contenu artistique.

7、Le mode vocal avancé de ChatGPT devrait être lancé le 24 septembre

Le mode vocal avancé de ChatGPT sera lancé le 24 septembre, offrant aux utilisateurs une expérience d'interaction sans précédent. Cette fonctionnalité génère des réponses audio réalistes, améliorant le naturel et l'immersion de l'interaction homme-machine. La fiabilité des informations de mise à jour a été confirmée. Certains utilisateurs mobiles pourront profiter du mode vocal amélioré dès le 24 septembre. L'interface de l'application ChatGPT pour macOS a été modifiée, l'interface du mode vocal est plus riche et de nouveaux boutons pratiques ont été ajoutés. Certains utilisateurs peuvent partager plus d'informations contextuelles avec ChatGPT, permettant des conversations plus cohérentes et personnalisées.

【Résumé AiBase :】

⚙️ Le mode vocal avancé sera lancé le 24 septembre, améliorant l'expérience d'interaction.

🔊 Il génère des réponses audio réalistes, améliorant le naturel et l'immersion de l'interaction homme-machine.

🌌 L'interface de l'application ChatGPT pour macOS a été modifiée, de nouveaux boutons pratiques ont été ajoutés, offrant une expérience visuelle plus riche.

8、YouTube intègre le modèle DeepMind Veo pour donner des ailes à l'imagination des créateurs

YouTube a officiellement annoncé l'intégration du modèle Veo de Google DeepMind à sa plateforme de vidéos courtes YouTube Shorts, ouvrant une nouvelle ère de création de vidéos courtes pilotée par l'IA. Cette initiative fournit non seulement aux créateurs des outils créatifs sans précédent, mais modifie également radicalement la façon dont les utilisateurs interagissent avec la plateforme.

【Résumé AiBase :】

✨ La fonction Dream Screen, combinant les modèles Imagen3 et Veo, crée un environnement de création intelligent pour les créateurs.

🌟 YouTube utilise la technologie SynthID pour garantir la transparence et la fiabilité du contenu généré par l'IA.

💡 Le programme Made on YouTube 2024 lance des outils de création basés sur l'IA, tels que des assistants d'inspiration et des outils de doublage automatique intelligents, pour soutenir les créateurs de contenu de manière globale.

9、Rapport semestriel 2024 sur les applications d'agents intelligents IA : plus de 66 millions d'utilisateurs actifs mensuels pour les applications IA

Le rapport semestriel 2024 sur les applications d'agents intelligents IA indique que le nombre d'utilisateurs actifs mensuels des applications IA dépasse 66 millions, démontrant le développement et la popularisation rapides de la technologie IA au niveau des applications. Le rapport indique que les applications IA ont formé huit catégories de jeux, et que les voies de monétisation ont été ouvertes. Les services d'agents intelligents répondent aux besoins des utilisateurs, l'écosystème WeChat est un canal important, et les modèles commerciaux des agents intelligents sont en cours d'exploration. Les agents intelligents sont matures dans les scénarios d'apprentissage éducatif, et la popularité des principaux agents intelligents est élevée. Les applications d'agents intelligents IA sont devenues une branche importante de l'Internet mobile, offrant aux utilisateurs une expérience riche et pratique, et fournissant une nouvelle impulsion et une nouvelle orientation au développement de l'industrie. On s'attend à ce que les applications d'agents intelligents IA jouent un rôle plus important à l'avenir.

image.png

【Résumé AiBase :】

📊 Le nombre d'utilisateurs actifs mensuels des applications IA dépasse 66 millions, démontrant le développement et la popularisation rapides de la technologie IA.

🎮 Les applications IA ont formé huit catégories de jeux, et les voies de monétisation ont été ouvertes.

📈 Les services d'agents intelligents répondent aux besoins des utilisateurs, l'écosystème WeChat est un canal important, et les modèles commerciaux sont en cours d'exploration.

10、LinkedIn utilise discrètement les données des utilisateurs pour entraîner l'IA, nécessitant une double désinscription

Récemment, il a été révélé que LinkedIn a commencé à utiliser les données des utilisateurs pour entraîner des modèles d'intelligence artificielle générative sans en informer préalablement les utilisateurs. Les utilisateurs doivent désactiver les options correspondantes dans les paramètres de leur compte pour se désinscrire, mais cela n'affecte que l'utilisation future des données. LinkedIn a également mentionné que d'autres outils d'apprentissage automatique nécessitent de remplir un formulaire supplémentaire pour se désinscrire complètement de l'utilisation des données.

【Résumé AiBase :】