Bienvenue sur le programme 【Journal de l'IA】 d'AIbase !

Découvrez les événements majeurs de l'IA du jour en trois minutes par jour, pour mieux comprendre les tendances de l'industrie de l'IA et les applications innovantes des produits d'IA.

Plus d'informations sur l'IA :https://www.aibase.com/zh

1. Tencent ouvre au public le modèle léger Huyuan-A13B, déployable sur une seule carte GPU de milieu de gamme

Capture d'écran WeChat_20250627155201.png

Tencent a lancé un nouveau membre de la famille de modèles Huyuan, le modèle Huyuan-A13B, qui utilise une architecture Mixture of Experts (MoE). Il comporte un total de 80 milliards de paramètres, dont 13 milliards activés, ce qui réduit significativement le délai de traitement et les coûts de calcul, offrant ainsi une solution d'IA plus rentable aux développeurs individuels et aux petites entreprises. Ce modèle se distingue particulièrement dans les tâches de raisonnement mathématique, scientifique et logique, et permet d'appeler des outils pour générer des réponses complexes.

Entrée d'essai : https://hunyuan.tencent.com/

Adresse de l'ouverture : https://github.com/Tencent-Hunyuan.

2. Keling AI lance la fonctionnalité "effets sonores vidéo", offrant une expérience immersive "ce que vous voyez, c'est ce que vous entendez"

QQ20250627-154533.png

Keling AI a lancé la fonctionnalité "effets sonores vidéo" pour toute sa série de modèles vidéo. Lorsque les utilisateurs créent des vidéos, ils peuvent générer simultanément des effets sonores stéréo, réalisant ainsi "ce que vous voyez, c'est ce que vous entendez". La fonction "génération d'effets sonores" a été améliorée avec un module "génération d'effets sonores à partir de vidéos", basé sur le modèle multimodal Klings-Foley développé par Keling, permettant une synchronisation au niveau des images et des sons. Cette fonction est actuellement gratuite pour tous les utilisateurs pendant une période limitée.

3. Black Forest ouvre au public FLUX.1Kontext [dev], une image de qualité comparable à celle de GPT-4o

image.png

Black Forest Labs a ouvert au public le modèle d'édition d'images FLUX.1Kontext [dev], basé sur une architecture de transformateur de correspondance de flux de 1,2 milliard de paramètres, compatible avec les appareils grand public. Son principal atout réside dans la perception contextuelle et l'édition précise, permettant de comprendre les entrées textuelles et visuelles, de générer et d'éditer véritablement en fonction du contexte, et de supporter l'édition itérative.

Adresse de l'ouverture : https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev

Github : https://github.com/black-forest-labs/flux。

4. OpenAI lance un nouveau modèle pour son API Deep Research : o3/o4-mini-deep research

image.png

OpenAI a lancé deux nouveaux modèles pour son API Deep Research : o3-deep-research et o4-mini-deep-research, conçus spécifiquement pour des analyses avancées et une synthèse d'informations approfondie, prenant en charge des fonctions telles que la recherche automatique sur Internet, l'analyse de données et l'exécution de code. En termes de prix, le modèle o3 coûte entre 10 et 40 dollars pour 1 000 appels, tandis que le modèle o4-mini est moins cher, avec un prix compris entre 2 et 8 dollars.

5. Des lunettes intelligentes Xiaomi à partir de 1 999 yuans, révolutionnent les accessoires intelligents, capables de prendre des photos, de payer et de jouer de la musique en une seule vue !

image.png

Xiaomi a lancé son premier produit d'accessoire intelligent, les lunettes Xiaomi AI, équipées de fonctionnalités de prise de vue en première personne, d'assistant vocal et d'enceinte ouverte. Grâce à la technologie électrochromique, ces lunettes offrent une expérience personnalisée. Elles sont légères, pesant seulement 40 grammes, et disposent d'une caméra avant de 12 mégapixels, capable de filmer et de diffuser en direct en 2K à 30 images par seconde.

6. Thunder lance un service MCP de téléchargement, laissez l'IA télécharger pour vous en une phrase !

Capture d'écran du navigateur Sogou 20250626192546.png

Thunder a lancé un service de téléchargement MCP, permettant à l'utilisateur de laisser l'IA effectuer automatiquement les tâches de téléchargement simplement en disant une phrase. Ce service est compatible avec la version PC de Thunder et Thunder NAS, et est actuellement gratuit pour tous les utilisateurs. Le service MCP de Thunder est capable de s'intégrer à plusieurs modèles d'IA majeurs, tels que Nano AI, Kouti Space, Cursor et Cherry Studio.

7. Génération de vidéos virales en un clic ! L'agent vidéo IA de HeyGen révolutionne le domaine de la création de contenus !

HeyGen a lancé un agent vidéo IA, capable de compléter automatiquement tout le processus de création de vidéos, de la planification de l'histoire à la rédaction du scénario et au choix des plans, en quelques minutes, produisant ainsi du contenu vidéo professionnel prêt à être publié. Il prend en charge divers types de vidéos, avec un processus simple, sans nécessiter de compétences spécialisées en édition vidéo. Des indications intelligentes guident l'utilisateur pour charger facilement les matériaux et définir les besoins créatifs, laissant l'IA accomplir toutes les tâches, du scénario à la vidéo finale.

8. Une grande nouvelle ! Google ouvre au public le modèle multimodal Gemma3n, capable de fournir des performances d'IA en cloud même sur un téléphone portable

QQ20250627-101207.png

Google a lancé et ouvert au public le modèle multimodal de bord Gemma3n, apportant des fonctions multimodales puissantes aux appareils de bord tels que les téléphones portables, les tablettes et les ordinateurs portables. Deux versions E2B et E4B sont proposées, avec respectivement 5 milliards et 8 milliards de paramètres initiaux, mais leur utilisation de mémoire ne représente que la moitié de celle des modèles traditionnels de 2 et 4 milliards de paramètres, pouvant fonctionner avec seulement 2 Go et 3 Go de mémoire RAM. Il prend naturellement en charge le traitement des entrées multimodales telles que les images, les sons, les vidéos et les textes, supportant la compréhension multimodale dans 140 langues de texte et 35 langues.

Adresse de l'ouverture : https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4