Bienvenue dans le programme « Journal de l'IA » ! C'est votre guide quotidien pour explorer le monde de l'intelligence artificielle. Chaque jour, nous vous présentons les dernières actualités du domaine de l'IA, en mettant l'accent sur les développeurs, pour vous aider à comprendre les tendances technologiques et à découvrir les applications innovantes des produits d'IA.
Produits d'IA frais Cliquez ici pour plus d'informations :https://app.aibase.com/zh
1. Google Gemini 3.0 Pro commence à être distribué en petite quantité : amélioration des capacités de raisonnement, lancement officiel prévu à la fin du mois
Le groupe DeepMind de Google commence à distribuer le modèle Gemini 3.0 Pro à certains utilisateurs. Ce modèle améliore les capacités de raisonnement et de traitement multimodal, et prévoit un lancement officiel en octobre.
【Résumé par AiBase :】
🧠 Le Gemini 3.0 Pro intègre une architecture de raisonnement Deep Think, améliorant sa capacité à traiter des tâches complexes en plusieurs étapes.
🌐 Il prend en charge divers formats d'entrée tels que le texte, les images, les sons et les vidéos, et peut générer du code complet pour le front-end.
🚀 Google prévoit de lancer une version légère appelée Flash, adaptée aux appareils mobiles et au calcul en périphérie.
2. Baidu lance le modèle PaddleOCR-VL, leader mondial pour la reconnaissance optique de caractères (OCR)
Le modèle PaddleOCR-VL de Baidu se distingue dans le domaine de la reconnaissance de documents grâce à sa légèreté, son efficacité, sa prise en charge multilingue et sa précision élevée, devenant ainsi un nouveau standard pour la technologie OCR.
【Résumé par AiBase :】
🌍 Supporte 109 langues, adapté à diverses tâches de traitement des documents.
⚙️ Paramètres principaux de seulement 0,9 milliard, permettant un calcul efficace et une reconnaissance précise.
🚀 Vitesse de traitement améliorée, supérieure à celle des autres modèles majeurs.
3. Aishitech, entreprise de vidéo IA, a levé 100 millions de yuans de financement de série B+ : ARR dépasse 40 millions de dollars, plus d'un milliard d'utilisateurs
Aishitech a obtenu des progrès notables dans le domaine de la génération de vidéos IA, levant 100 millions de yuans de financement de série B+, atteignant des jalons tels qu'un ARR dépassant 40 millions de dollars et plus d'un milliard d'utilisateurs inscrits. Sa stratégie produit et ses innovations techniques offrent une forte compétitivité au marché.
【Résumé par AiBase :】
🚀 Aishitech a levé 100 millions de yuans de financement de série B+, montrant la reconnaissance et le soutien du marché financier.
📈 Le revenu annuel récurrent (ARR) dépasse 40 millions de dollars, avec plus d'un milliard d'utilisateurs.
💡 Les innovations technologiques continuent, la version PixVerse V5 améliore l'efficacité de la génération et la qualité des vidéos, introduisant également une fonction d'aide à la création par agent.
4. Anthropic lance la fonctionnalité « skills » de Claude : amélioration de l'efficacité de l'IA au travail
Anthropic a lancé une nouvelle fonctionnalité nommée « skills » pour Claude AI, visant à renforcer l'utilité de l'IA dans les scénarios professionnels. Cette fonctionnalité fournit des instructions, scripts et ressources sous forme de dossiers, permettant à Claude de traiter plus efficacement des tâches spécifiques comme des documents Excel ou des guides de marque. Les utilisateurs peuvent également créer leurs propres compétences et les utiliser sur plusieurs plateformes. Cette fonctionnalité correspond à AgentKit d'OpenAI, marquant ainsi un pas vers la praticité dans l'industrie de l'IA.
【Résumé par AiBase :】
🌟 Anthropic lance la fonctionnalité « skills » de Claude, augmentant l'utilité de l'IA au travail.
🛠️ Les utilisateurs peuvent créer des compétences personnalisées afin que Claude s'adapte mieux à des scénarios professionnels spécifiques.
🚀 Cette initiative est similaire aux nouvelles fonctions telles qu'AgentKit lancées par OpenAI, montrant que l'industrie de l'IA continue d'évoluer vers la praticité.
5. Pinterest lance un outil de contrôle des contenus générés par l'IA : les utilisateurs peuvent personnaliser la réduction des images générées par l'IA
Pinterest a lancé un nouvel outil de contrôle des contenus, permettant aux utilisateurs de limiter la proportion de contenus générés par l'IA dans leur flux d'actualités, en réponse à leur mécontentement. La plateforme introduit des balises d'IA et des paramètres choisis par les utilisateurs pour essayer d'atteindre un équilibre entre l'innovation en IA et l'expérience utilisateur.
【Résumé par AiBase :】
🖼️ Les utilisateurs peuvent personnaliser la réduction de la proportion d'images générées par l'IA affichées.
🤖 Pinterest a introduit des balises d'IA pour identifier les contenus générés par l'IA.
🌐 Pinterest cherche un compromis entre la technologie IA et l'expérience utilisateur.
6. LLaVA-OneVision-1.5, modèle multimodal entièrement open source, dépassant Qwen2.5-VL
LLaVA-OneVision-1.5 est un modèle multimodal open source capable de traiter divers types d'entrées tels que les images et les vidéos, et se distingue dans plusieurs tests de référence, surpassant ainsi le modèle Qwen2.5-VL.
【Résumé par AiBase :】
🧠 LLaVA-OneVision-1.5 est un nouveau modèle multimodal capable de traiter divers formats d'entrée tels que les images et les vidéos.
📈 Le processus d'entraînement se compose de trois étapes, visant à améliorer efficacement les capacités de compréhension visuelle et linguistique du modèle.
🏆 LLaVA-OneVision-1.5 a performé très bien dans les tests de référence, dépassant ainsi le modèle Qwen2.5-VL.
Lien d'information supplémentaire : https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5 https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct
7. Le modèle de génération vidéo de Sora 2 d'OpenAI est disponible sur la plateforme Microsoft Azure : prix de 0,1 dollar par seconde, entrée en phase de prévisualisation publique
Microsoft a annoncé que le modèle de génération vidéo Sora 2 d'OpenAI est désormais disponible sur Azure AI Foundry version internationale, entrant ainsi en phase de prévisualisation publique, marquant ainsi l'entrée des outils d'IA générative vidéo dans le commerce.
【Résumé par AiBase :】
🎥 Sora2 est un modèle de génération vidéo multimodal, supportant les entrées textuelles, image et vidéo, pouvant générer de nouveaux contenus vidéo.
💰 Le prix est de 0,1 dollar par seconde, basé sur le temps de génération, idéal pour les entreprises qui souhaitent l'utiliser en volume.
🌐 Sora2 n'est actuellement disponible que sur la version internationale de Azure AI Foundry, les utilisateurs chinois ne peuvent pas encore y accéder directement.
8. Kayak lance un mode « IA » pour planifier et réserver vos voyages plus facilement
Kayak a lancé un nouveau mode « IA », qui aide les utilisateurs à rechercher, planifier et réserver leurs voyages via un chatbot intégré. Cette fonction utilise la technologie ChatGPT pour fournir des résultats de recherche plus contextuels et prendre en charge les questions ouvertes pour obtenir des conseils sur les voyages.
【Résumé par AiBase :】
🌍 Kayak lance le mode « IA », permettant aux utilisateurs de planifier et de réserver leurs voyages via un chatbot.
🗣️ Cette fonction permet de poser des questions sur les conseils de voyage et de comparer différents services de voyage, en utilisant la technologie ChatGPT pour fournir des informations précises.
📅 Le mode « IA » est initialement disponible uniquement en anglais, puis sera étendu à plus de langues et plates-formes, et inclura une fonction de demande vocale.