Bienvenue sur la rubrique 【AI日报】 ! Votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les actualités les plus importantes du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et les applications innovantes des produits d'IA.

Nouveaux produits IA  Cliquez pour en savoir plus : https://top.aibase.com/

🤖📱💼Applications IA

StreamingT2V : un modèle de vidéo IA longue de 2 minutes, alternative à Sora, désormais open source ! Adresse de test disponible

2.png

【Résumé AiBase :】

⭐ StreamingT2V peut générer des vidéos jusqu'à 1200 images, soit 2 minutes, surpassant le modèle Sora.

⭐ Il utilise une technique autorégressive avancée pour maintenir la cohérence temporelle et une haute qualité vidéo.

⭐ C'est un projet open source et gratuit, compatible avec les modèles SVD et animatediff.

⭐ Le code a été publié, et l'adresse de test est en ligne. Le temps de génération est long : environ 13 minutes par vidéo.

Code source : https://top.aibase.com/tool/streamingt2v

Adresse de l'article : https://arxiv.org/pdf/2403.14773.pdf

Adresse de test 1 : https://huggingface.co/spaces/PAIR/StreamingT2V

Adresse de test 2 : https://replicate.com/camenduru/streaming-t2v

Udio AI : génération audio multifonctionnelle, création de comédies, discours, émissions de radio, etc.

image.png

【Résumé AiBase :】

⭐ Udio peut créer non seulement de la musique, mais aussi des comédies, des discours, des dialogues de PNJ, des analyses sportives, des publicités, des émissions de radio, de l'ASMR, des effets sonores naturels, etc.

⭐ Création à partir de descriptions textuelles simples : les utilisateurs peuvent guider Udio pour générer des œuvres musicales avec un thème et des émotions spécifiques à l'aide de descriptions textuelles simples.

⭐ Large éventail de genres et de styles musicaux : Udio prend en charge de nombreux genres et styles musicaux pour satisfaire les goûts musicaux de différents utilisateurs.

Pour les intéressés, vous pouvez consulter la playlist : https://www.udio.com/playlists/deGuVDLYd9MrXtxnxfX7z1

Adresse d'essai : https://top.aibase.com/tool/udio

Amélioration de la fonction « AI Anime » de Meitu Wink : conversion d'œuvres de courts métrages en style anime

微信截图_20240415085954.png

【Résumé AiBase :】

⭐ Meitu Wink a récemment amélioré sa fonction « AI Anime » pour convertir des œuvres de courts métrages en style anime.

⭐ L'intégration du module CFA optimise la cohérence des mouvements, générant des vidéos anime plus fluides et naturelles.

⭐ La technique de segmentation traite les longues vidéos, réduisant le temps d'attente et rendant la création plus fluide.

StableDesign : solution SD pour la décoration intérieure ; modification des plans d'intérieur à partir de descriptions textuelles

image.png

【Résumé AiBase :】

⭐️ Les développeurs ont créé un projet pour la génération d'intérieur.

⭐️ L'entraînement est réalisé grâce au téléchargement de données de logements Airbnb et de métadonnées d'images, et à l'extraction de caractéristiques.

⭐️ L'entraînement avec ControlNet et le modèle Lora permet de contrôler la génération de design d'intérieur et la conversion texte-image.

Essai en ligne : https://huggingface.co/spaces/MykolaL/StableDesign

Plus puissant que l'échange de visage ! SwapAnything : remplacement d'éléments quelconques dans une image

image.png

【Résumé AiBase :】

🔍 Le framework SwapAnything offre un contrôle précis des objets et des parties, préserve les pixels contextuels et s'adapte aux concepts personnalisés.

🔍 Grâce à l'échange de variables orientées et aux techniques d'ajustement de l'apparence, SwapAnything montre une capacité d'échange précise et fidèle.

🔍 SwapAnything permet de contrôler précisément n'importe quel objet dans une image, pour un échange personnalisé de haute qualité.

Accès au projet : https://top.aibase.com/tool/swapanything

L'adresse d'essai en ligne de l'outil de génération vidéo en accéléré MagicTime est disponible

image.png

【Résumé AiBase】

⭐ La vidéo en accéléré est une technique photographique qui montre les changements sur une longue période.

⭐ MagicTime peut générer des vidéos en accéléré à partir de descriptions textuelles.

⭐ Largement applicable, elle peut enregistrer les phénomènes naturels et les changements artificiels.

Adresse du projet : https://top.aibase.com/tool/magictime

Adresse d'essai : https://huggingface.co/spaces/BestWishYsh/MagicTime

Adresse de téléchargement du modèle : https://huggingface.co/Kijai/MagicTime-merged-fp16

Outil d'écriture automatisé STORM : génération de longs articles approfondis similaires à Wikipédia

image.png

【Résumé AiBase :】

⭐️ STORM collecte automatiquement des informations, simule des dialogues d'experts et génère un plan d'article structuré.

⭐️ STORM étudie et intègre efficacement des informations multi-angles pour favoriser une compréhension approfondie et une génération précise de questions.

⭐️ Après avoir généré le plan de l'article, STORM rédige et peaufine l'article pour améliorer la qualité globale.

Adresse du projet : https://top.aibase.com/tool/storm

Meta lance le modèle ViewDiff : génération d'images 3D multi-angles à partir de texte

【Résumé AiBase :】

🌟 ViewDiff résout les trois principaux défis de la génération d'images 3D multi-angles à partir de texte : la cohérence, la qualité et la diversité des points de vue.

🌟 Le module de génération autorégressive permet à ViewDiff de générer des images 3D plus cohérentes sous n'importe quel angle.

🌟 ViewDiff comble une lacune technologique dans le domaine de la génération d'images 3D multi-angles à partir de texte.

Adresse de l'article : https://arxiv.org/abs/2403.01807

Adresse du projet : https://top.aibase.com/tool/viewdiff

📰🤖📢Actualités IA

Le premier programmeur IA à avoir falsifié des informations est arrêté, Devin secoue à nouveau la Silicon Valley ! Explication détaillée de la vidéo et du texte inclus

图片

【Résumé AiBase :】

⭐️ Un programmeur YouTube révèle la falsification de vidéos par le premier programmeur IA, Devin.

⭐️ La démonstration de Devin est moins magique qu'en réalité, corrigeant des bogues pour en créer de nouveaux.

⭐️ Face aux doutes et aux révélations de fausses informations, les internautes se montrent sceptiques quant à la surenchère publicitaire des produits IA.

Détails : https://www.chinaz.com/2024/0415/1610127.shtml

XAI de Musk publie le modèle multi-modal Grok-1.5Vision, capable de traiter des informations textuelles et visuelles

image.png

【Résumé AiBase :】

⭐️ Le modèle Grok-1.5Vision affiche des performances exceptionnelles, surpassant GPT4V.

⭐️ Il excelle dans les tests de référence RealWorldQA, comprenant l'espace physique du monde réel.

⭐️ Le modèle Grok-1.5Vision possède une puissante capacité de traitement et de compréhension de l'espace du monde réel.

Adresse du site web : https://top.aibase.com/tool/grok-1-5-vision-preview

Le grand modèle 360 ZhiNao de 7 milliards de paramètres est officiellement open source, prenant en charge jusqu'à environ 500 000 mots en entrée

【Résumé AiBase :】

🧠 Le grand modèle 360 ZhiNao de 7 milliards de paramètres est officiellement open source.

🧩 Il prend en charge différentes versions de longueur de texte, pouvant traiter jusqu'à 360 000 mots.

🔥 Il a obtenu d'excellents résultats lors des tests de capacités, se classant parmi les trois premiers en termes de capacités globales.

Adresse du projet : https://github.com/Qihoo360/360zhinao

Environ 5 % des images de l'ensemble d'entraînement de l'IA de génération d'images d'Adobe, « Firefly », sont des images IA

【Résumé AiBase :】

⭐ Adobe Stock commence à accepter les contenus IA, environ 14 % étant des images générées par IA.

⭐ Des chercheurs indiquent que Firefly apprend à partir d'images générées par Midjourney, contrairement à ce qu'il affirme.

⭐ Les utilisateurs expriment leur mécontentement face à l'utilisation de leurs œuvres par Adobe pour entraîner Firefly.

Code et modèle entièrement open source ! Le modèle multi-modal Mini-Gemini de l'équipe de Jia Jiaya fait sensation

image.png

【Résumé AiBase :】

⭐️ Le modèle Mini-Gemini obtient des résultats remarquables sur les tâches multimodales, avec un code source et des données de modèle open source.

⭐️ Mini-Gemini combine la compréhension et la génération d'images, démontrant une capacité de raisonnement visuel exceptionnelle.

⭐️ Il utilise la méthode d'extraction d'informations à double branche visuelle Gemini pour traiter efficacement les images haute résolution et générer du contenu visuel et textuel riche.

Adresse du projet : https://top.aibase.com/tool/mini-gemini

Adresse d'essai : https://103.170.5.190:7860/

Mianbi Intelligence open source le modèle MiniCPM2.0 : amélioration significative des capacités telles que l'OCR

【Résumé AiBase :】

⭐ MiniCPM-V2.0 est le modèle multi-modal le plus puissant pour les appareils mobiles, avec de puissantes capacités d'OCR.

⭐ MiniCPM-1.2B est un modèle de base adapté aux scénarios d'appareils mobiles, avec une vitesse d'inférence rapide et un faible coût.

⭐ MiniCPM-2B-128K est le modèle de texte long le plus petit à ce jour, traitant des contenus textuels de 128 K.

MiniCPM-V2.0 :

https://github.com/OpenBMB/MiniCPM-V

Adresse open source de la série MiniCPM :

https://github.com/OpenBMB/MiniCPM

Adresse du blog technique MiniCPM :

https://openbmb.vercel.app/?category=Chinese+Blog

L'intensité de la concurrence augmente ! La croissance de ChatGPT ralentit : 1,77 milliard de visites mondiales en mars, Claude prend progressivement de l'ampleur

【Résumé AiBase :】

📉 La croissance du nombre de visites mondiales de ChatGPT ralentit, malgré le lancement de nouvelles fonctionnalités.

🚀 Claude d'Anthropic se développe rapidement sur le marché européen, intensifiant la concurrence avec ChatGPT.

💥 Après le lancement de Claude 3, la croissance rapide se poursuit, démontrant le potentiel des nouveaux produits.

L'équipe InstantID propose une nouvelle méthode de transfert de style, InstantStyle : plongez-vous dans « la nuit étoilée » de Van Gogh en un clic

image.png

【Résumé AiBase :】

⭐️ Soustraction de caractéristiques : en utilisant les caractéristiques du modèle CLIP, la soustraction de caractéristiques supprime les informations de contenu pour réaliser le découplage du style et du contenu.