AI Quotidien : Hedra ouvre gratuitement son outil de transformation d'images en vidéos parlantes ; Deepmind lance V2A, une technologie révolutionnaire de doublage automatique de vidéos ; Lancement officiel de WHEE V2 de Meitu ; Une version open source de Sora permet de générer des vidéos HD 720p en un clic

Bienvenue à la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en nous concentrant sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits d'IA.

Nouveaux produits IA Cliquez pour en savoir plus : https://top.aibase.com/

1、L'ouverture de Character-1 de Hedra

L'ouverture de Character-1 de Hedra offre aux créateurs un outil extraordinaire pour générer des vidéos parlantes et chantantes à partir de texte et d'images, révolutionnant ainsi la création. Ce n'est pas seulement un outil, mais une nouvelle plateforme de création qui permet à chacun de bénéficier d'opportunités infinies de création vidéo.

【Résumé AiBase :】
⭐️ Génération de vidéos dynamiques : téléchargez une photo et ajoutez une piste audio pour faire parler ou chanter un personnage.
⭐️ Compatibilité multiplateforme : les utilisateurs peuvent facilement l'utiliser sur ordinateur ou appareil mobile.
⭐️ Qualité garantie : les expressions, les postures et la voix sont synchronisées, pour un résultat réaliste et satisfaisant.
Lien détaillé : https://top.aibase.com/tool/hedra

2、Technologie de conversion vidéo-audio V2A de Deepmind : création automatique de bandes sonores et de doublages pour les vidéos

Google Deepmind a publié la technologie V2A, qui utilise les pixels vidéo et des invites textuelles pour générer des pistes audio riches et synchronisées. Les utilisateurs peuvent guider la sortie audio via des descriptions textuelles. Le système utilise des méthodes auto-régressives et de diffusion pour générer l'audio, garantissant une parfaite synchronisation avec le contenu vidéo. Pendant l'entraînement, des annotations générées par l'IA aident le modèle à comprendre la relation entre les événements audio et les scènes visuelles. Bien que des défis de synchronisation labiale persistent, la technologie V2A sera soumise à des tests d'évaluation rigoureux avant d'être mise à la disposition du public.

【Résumé AiBase :】
🔊 Création automatique de bandes sonores et de doublages pour les vidéos
🎶 Génération de pistes audio riches à partir de pixels vidéo et d'invites textuelles
🤖 Utilisation d'annotations générées par l'IA pendant l'entraînement
Lien détaillé : https://top.aibase.com/tool/deepmind-v2a

3、Modèle linguistique léger d'IA Index-1.9B open source par Bilibili

Le modèle Index-1.9B récemment open-sourcé par Bilibili a suscité un intérêt considérable. Ce modèle comprend un modèle de base, un groupe de contrôle et un modèle conversationnel, avec 1,9 milliard de paramètres non intégrés à des mots, et affiche des performances supérieures sur plusieurs benchmarks.

【Résumé AiBase :】
🔍 Index-1.9B base : le modèle de base possède 1,9 milliard de paramètres non intégrés à des mots, pré-entraîné sur 2,8 T de données textuelles en chinois et en anglais, surpassant les modèles du même niveau.
🔍 Index-1.9B pure : le groupe de contrôle est identique au modèle de base, mais les données liées aux instructions ont été filtrées pour vérifier l'impact sur les benchmarks.
🔍 Index-1.9B chat : modèle conversationnel basé sur le modèle de base, aligné par SFT et DPO, intégrant des données textuelles de communautés en ligne, pour des conversations plus divertissantes.
Lien détaillé : https://top.aibase.com/tool/index-1-9b

4、Lancement officiel de Meitu WHEE V2

Meitu a lancé la nouvelle version de son éditeur d'images IA WHEE V2, qui intègre de nombreuses fonctions pratiques et la technologie IA, offrant aux utilisateurs une expérience de traitement tout-en-un simple et efficace. Les nouvelles fonctions de dessin IA et de retouche IA enrichissent les options d'édition, prenant en charge la présentation créative de plusieurs types de supports. Les fonctions de sélection intelligente et d'invites permettent aux utilisateurs de modifier naturellement les images, avec prise en charge de la personnalisation des dimensions des images, du contenu des calques et de plusieurs formes d'agrandissement. Il dispose de plusieurs calques visualisables, d'une reconnaissance sémantique précise, de styles variés et d'un contrôle détaillé, permettant un traitement d'images personnalisé de haute qualité.

【Résumé AiBase :】
✨ Nouvelles fonctions de dessin IA et de retouche IA, enrichissant les options d'édition et prenant en charge la présentation créative de plusieurs types de supports.
💡 Fonction de sélection intelligente et d'invites pour une modification naturelle, avec prise en charge de la personnalisation des dimensions des images, du contenu des calques et de plusieurs formes d'agrandissement.
🎨 Plusieurs calques visualisables, reconnaissance sémantique précise, styles variés et contrôle détaillé, pour un traitement d'images personnalisé de haute qualité.

5、L'équipe Open-Sora de Lu Cheng réalise une percée en termes de qualité vidéo HD 720p et de durée de génération

L'équipe Open-Sora de Lu Cheng a réalisé des progrès révolutionnaires en termes de qualité vidéo HD 720p et de durée de génération. Le projet open source simplifie la génération vidéo et a été chaleureusement accueilli par la communauté. Lambda Labs, une société d'IA détenue par Nvidia, a également créé un univers de Lego numérique basé sur les poids du modèle Open-Sora, ouvrant de nouvelles perspectives créatives. Le rapport technique analyse en profondeur le cœur et les éléments clés de l'entraînement du modèle, résolvant les problèmes de l'entraînement des modèles vidéo et améliorant la qualité et la vitesse de génération.

【Résumé AiBase :】
⚙️ L'équipe Open-Sora réalise une percée en termes de qualité vidéo HD 720p et de durée de génération, le projet open source simplifie le processus de génération vidéo.
🌟 Lambda Labs crée un univers de Lego numérique basé sur les poids du modèle Open-Sora, des possibilités créatives infinies.
🔬 Le rapport technique révèle les détails essentiels de l'entraînement du modèle, résolvant les problèmes de l'entraînement des modèles vidéo et améliorant la qualité et la vitesse de génération.
Lien détaillé : https://github.com/hpcaitech/Open-Sora

6、Mise à niveau de la plateforme de personnages numériques XiLing de Baidu : prise en charge de la génération de personnages numériques 3D à partir de texte, du clonage de voix, etc.

La plateforme de personnages numériques XiLing de Baidu Cloud intelligent est sur le point de connaître une mise à niveau majeure, offrant une génération de personnages numériques 2D/3D efficace et économique, couvrant les scénarios de diffusion en direct, de vidéos courtes et de conversations, améliorant considérablement l'expérience utilisateur. La plateforme XiLing affiche des capacités impressionnantes de génération de personnages numériques, générant rapidement et précisément des personnages numériques réalistes, ouvrant de nouvelles possibilités de création d'IP pour les entreprises, le tourisme et le divertissement.

【Résumé AiBase :】
🌟 Génération de personnages numériques 2D/3D efficace et économique, améliorant l'expérience utilisateur.
🎨 Génération rapide et précise de personnages numériques réalistes, ouvrant de nouvelles possibilités de création d'IP pour plusieurs domaines.
🔊 Fonction de clonage vocal, pour générer des voix personnalisées pour les annonces et la production de contenu des personnages numériques.

7、Meta publie plusieurs modèles : modèle multi-modal Chameleon, modèle de génération musicale à partir de texte JASCO, technologie de filigrane audio AudioSeal

Meta a récemment publié plusieurs résultats de recherche, notamment le modèle multi-modal Chameleon, le modèle de génération musicale à partir de texte JASCO et la technologie de filigrane audio AudioSeal, apportant de nouvelles avancées technologiques et perspectives d'application au domaine de l'IA. Ces résultats contribueront au développement et à l'application de la technologie IA et revêtent une importance considérable.

【Résumé AiBase :】
🌟 Meta a publié le modèle multi-modal Chameleon, capable de traiter des entrées et sorties mixtes de texte et d'images, offrant de nouvelles solutions.
🎶 La nouvelle méthode d'entraînement des modèles linguistiques Multi-Token Prediction améliore les capacités et l'efficacité de l'entraînement du modèle.
🔊 Le modèle de génération musicale à partir de texte JASCO accepte diverses entrées conditionnelles, offrant un meilleur contrôle et plus de flexibilité de la musique.
Lien détaillé : https://top.aibase.com/tool/meta-chameleonMulti-Token Prediction

8、Google lance GenType, un générateur de polices utilisable pour créer des jaquettes et des titres artistiques

GenType est un produit expérimental de Google, piloté par le modèle Imagen2, qui permet aux utilisateurs de créer des formes de lettres personnalisées pour écrire divers contenus, particulièrement adapté à la création de titres ou d'œuvres d'art pour les jaquettes. Cet outil offre une interface simple et intuitive, permettant aux utilisateurs de se familiariser rapidement avec l'outil, stimulant leur créativité et leur imagination. Les utilisateurs peuvent partager et enregistrer les images d'alphabets générées et parcourir les œuvres d'autres utilisateurs dans une galerie en ligne pour s'inspirer et trouver des idées.

【Résumé AiBase :】
🎨 Création de lettres personnalisées : les utilisateurs peuvent saisir n'importe quelle invite, GenType la transforme en un alphabet unique, reflétant la créativité personnelle.
🖌 Outil de création artistique : GenType n'est pas seulement un générateur, mais aussi un outil de création artistique, permettant aux utilisateurs de créer des œuvres d'art alphabétiques infinies.
📷 Partage et enregistrement : options de partage et d'enregistrement pratiques, les utilisateurs peuvent enregistrer l'alphabet au format image PNG et le partager sur les réseaux sociaux.
Lien détaillé : https://top.aibase.com/tool/gentype

9、Impressionnant ! Nvidia dépasse Microsoft pour devenir l'entreprise la plus précieuse au monde

Le cours de l'action de Nvidia a grimpé en flèche, dépassant celui de Microsoft, Apple et Google pour devenir l'entreprise la plus valorisée au monde. La société prévoit de lancer la nouvelle architecture de GPU Blackwell, le PDG affirmant qu'il s'agira de la puce la plus puissante au monde, avec le lancement annuel de nouvelles puces IA. Le cours de l'action de Nvidia a augmenté de 160 % en 2024, portant sa capitalisation boursière à 3 335 milliards de dollars.

【Résumé AiBase :】
📈 Nvidia dépasse Microsoft, Apple et Google pour devenir l'entreprise la plus valorisée au monde.
💻 Nvidia prévoit de lancer l'architecture de GPU Blackwell, le PDG affirmant qu'il s'agira de la puce la plus puissante au monde, avec le lancement annuel de nouvelles puces IA.
💰 Le cours de l'action de Nvidia a augmenté de 160 % en 2024, portant sa capitalisation boursière à 3 335 milliards de dollars.

10、Après l'annonce du lancement de nouvelles fonctions d'intelligence artificielle, Apple lance une « formation IA » pour les développeurs

Apple a annoncé le lancement de nouveaux cours de formation sur l'intelligence artificielle, destinés aux étudiants, aux tuteurs et aux anciens élèves de l'Apple Developer Academy. Cela marque une attitude plus ouverte et une importance croissante accordée par Apple au domaine de la technologie IA.

【Résumé AiBase :】
🍎 Apple lance de nouveaux cours de formation sur l'intelligence artificielle, axés sur le développement des compétences de programmation professionnelles des étudiants.
📚 Les nouveaux cours enseigneront comment construire, entraîner et déployer des modèles d'apprentissage automatique sur les appareils Apple.
💡 Les outils IA d'Apple seront intégrés à plusieurs plateformes, y compris Xcode, pour aider les développeurs à coder plus intelligemment.

11、Les œuvres générées par Dream Machine de Luma AI sont accusées de plagiat de la propriété intellectuelle de Disney

L'outil de génération vidéo Dream Machine de Luma a suscité des questions concernant la transparence des modèles et l'origine des données, notamment en raison d'allégations de plagiat d'œuvres de Disney. Cela soulève l'une des préoccupations majeures concernant ces modèles : le manque de transparence.