Actualités IA

Ne manquez aucun moment de l'innovation mondiale en IA

IA Quotidien

Tendances quotidiennes de l'industrie de l'IA en trois minutes

Chronologie de l'IA

Jalons de l'industrie de l'IA

Al hardware

liste tous les produits de matériel AI.

Guide de monétisation de l'IA

Derniers cas

Partage de cas de monétisation de l'IA

Collection d'images

Cas de monétisation de la création d'images par l'IA

Collection de vidéos

Cas de monétisation de la création de vidéos par l'IA

Collection audio

Cas de monétisation de la création audio par l'IA

Collection de contenu

Cas de monétisation de la rédaction de contenu par l'IA

Tutoriels IA

Derniers tutoriels

Partage gratuit des derniers tutoriels IA

Classements des produits IA

Classement des produits IA

Affiche le classement du nombre total de visites des sites web d'IA

Classement de la croissance du trafic IA

Suit les sites web d'IA à la croissance la plus rapide en termes de trafic

Classement de la baisse du trafic IA

Se concentre sur les sites web d'IA avec des baisses de trafic importantes

Classement hebdomadaire de l'IA

Affiche le classement hebdomadaire des visites des sites web d'IA

Classements des pays populaires

États-Unis

Sites web d'IA les plus populaires auprès des utilisateurs américains

Chine

Sites web d'IA les plus populaires auprès des utilisateurs chinois

Inde

Sites web d'IA les plus populaires auprès des utilisateurs indiens

Brésil

Sites web d'IA les plus populaires auprès des utilisateurs brésiliens

Classements des catégories populaires

Génération d'images

Classement du nombre total de visites des sites web de génération d'images par l'IA

Assistant personnel

Classement du nombre total de visites des sites web d'assistants personnels d'IA

Génération de personnages

Classement du nombre total de visites des sites web de génération de personnages par l'IA

Génération de vidéos

Classement du nombre total de visites des sites web de génération de vidéos par l'IA

Classements des données Open Source populaires

Classement des projets IA

Projets IA populaires sur GitHub par nombre total d'étoiles

Classement de la croissance des projets IA

Projets IA populaires sur GitHub par taux de croissance

Classement des développeurs IA

Classement des développeurs IA populaires sur GitHub

Classement des organisations IA

Classement des organisations IA populaires sur GitHub

Catégories Open Source populaires

Deepseek

Projets Open Source Deepseek populaires sur GitHub

TTS

Projets Open Source TTS populaires sur GitHub

LLM

Projets Open Source LLM populaires sur GitHub

ChatGPT

Projets Open Source ChatGPT populaires sur GitHub

Bibliothèque de projets Open Source IA

Aperçu

Aperçu des projets Open Source IA populaires sur GitHub

Bibliothèque de produits Navigation de l'outil

Phi-3.5-vision

Modèle multi-modal avancé prenant en charge la compréhension des images et du texte.

Produit OrdinaireProgrammationMultimodalCompréhension d'images

Ouvrir le site Web

Phi-3.5-vision est un modèle multi-modal léger et de nouvelle génération développé par Microsoft. Construit sur un ensemble de données comprenant des données synthétiques et des sites Web accessibles au public et sélectionnés, il se concentre sur des données d'inférence denses et de haute qualité pour le texte et la vision. Ce modèle, appartenant à la famille des modèles Phi-3, a subi un processus d'amélioration rigoureux combinant l'ajustement fin supervisé et l'optimisation directe des préférences pour garantir une précision dans le suivi des instructions et de solides mesures de sécurité.

Ouvrir le site Web

Phi-3.5-vision Dernière situation du trafic

Nombre total de visites mensuelles

25296546

Taux de rebond

43.31%

Nombre moyen de pages par visite

5.8

Durée moyenne de la visite

00:04:45

Phi-3.5-vision Tendance des visites

Phi-3.5-vision Distribution géographique des visites

Phi-3.5-vision Sources de trafic

Phi-3.5-vision Alternatives

Qwen2-VL-2B — Modèle linguistique visuel de pointe, prenant en charge la compréhension multimodale et la génération de texte.

Image

•Modèle linguistique visuel•Multimodal

228

Phi-3.5-vision — Modèle multi-modal avancé prenant en charge la compréhension des images et du texte.

Programmation

•Multimodal•Compréhension d'images

306

Liquid — Un modèle de génération multimodale intégrant la compréhension et la génération d'images.

Productivité

•Multimodal•Modèle génératif

UniTok — UniTok est un tokeniseur visuel unifié pour la génération et la compréhension d'images.

Image

•Intelligence artificielle•Génération d'images

156

Magma-8B — Magma-8B est un modèle d'IA multimodale développé par Microsoft, capable de traiter des entrées image et texte et de générer des sorties textuelles.

Image

•Multimodal•IA

132

SmolVLM-256M-Instruct — SmolVLM-256M est le plus petit modèle multi-modal au monde, capable de traiter efficacement les entrées image et texte et de générer des sorties textuelles.

Image

•Multimodal•Traitement d'image

228

InternVL2_5-38B-MPO — Série de modèles InternVL2.5-MPO, basée sur InternVL2.5 et l'optimisation des préférences mixtes, démontrant des performances exceptionnelles.

Chat

•Multimodal•Grand modèle linguistique

324

Qwen2-VL-7B — Qwen2-VL-7B est le dernier modèle linguistique visuel, prenant en charge la compréhension multimodale et la génération de texte.

Image

•Modèle linguistique visuel•Multimodal

228

Pixtral-Large-Instruct-2411 — Modèle linguistique multimodal de grande taille de 124 milliards de paramètres

Productivité

•Multimodal•Grand modèle linguistique

294

ultravox-v0_4_1-llama-3_1-70b — Modèle linguistique large multi-modal vocal

Productivité

•Reconnaissance vocale•Génération de texte

198

Aquila-VL-2B-llava-qwen — Modèle de langage visuel combinant informations image et texte pour un traitement intelligent.

Image

•Modèle de langage visuel•Multimodal

234

Ferret-UI-Llama8b — Modèle linguistique de grande taille multimodale basé sur Llama-3-8B, spécialisé dans les tâches liées à l'interface utilisateur.

Programmation

•Multimodal•Grand modèle linguistique

330

MM1.5 — Optimisation et analyse d'un grand modèle linguistique multi-modal

Productivité

•Multimodal•Grand modèle linguistique

204

Pixtral-12B-2409 — Modèle multimodal de 12 milliards de paramètres, combinant un encodeur visuel pour traiter les images et le texte.

Productivité

•Multimodal•Traitement d'image

186

mPLUG-Owl3 — Modèle linguistique de grande taille multimodale, capable de comprendre de longues séquences d'images.

Image

•Multimodal•Compréhension d'images

270

MiniCPM-V 2.6 — Modèle linguistique multimodal haute performance, adapté à la compréhension d'images et de vidéos.

Image

•Multimodal•Compréhension d'images

378

Falcon 2 — Falcon 2 est un modèle multimodal, multilingue et open source capable de convertir des images en texte.

Productivité

•IA•Open Source

486

PaliGemma — Modèle de langage visuel ouvert de pointe de Google

Image

•Modèle de langage visuel•Compréhension d'images

318

Aperçu de Grok-1.5 Vision — Le premier modèle multi-modal connectant le monde numérique et physique

Productivité

•Multimodal•IA

1206

TinyGPT-V — Modèle linguistique large multimodal performant

Productivité

•Modèle linguistique•Multimodal

540

Fuyu-8B — Modèle multi-modal compact, prenant en charge la génération d'images et de texte

Image

•Multimodal•Génération d'images

1692

SEED — Donne à LLM la capacité de visualiser et de dessiner.

Image

•Pré-entraînement à grande échelle•Multimodal

492

GLM-4-32B — Modèle linguistique puissant, prenant en charge plusieurs tâches de traitement du langage naturel.

Sélection Nationale

•Traitement du langage naturel•Apprentissage profond

InternVL3 — InternVL3 open source : 7 tailles couvrant le traitement de texte, d'images et de vidéos, capacités multimodales étendues à l'analyse d'images industrielles

Productivité

•IA•Multimodal

Kimi-VL — Modèle linguistique visuel hybride open source et expert, hautement efficace, doté de capacités de raisonnement multimodales.

Sélection Nationale

•Multimodal•Raisonnement

Dream 7B — Dream 7B est l'un des modèles linguistiques de diffusion ouverts les plus puissants.

Productivité

•Modèle de diffusion•Grand modèle linguistique

DreamActor-M1 — Un framework d'animation d'images humaines basé sur DiT, permettant un contrôle précis et une cohérence à long terme.

Productivité

•Animation humaine•Génération vidéo

MeshifAI — Convertissez instantanément du texte en modèles 3D époustouflants.

Image

•Modèle 3D•Technologie IA

Gemini 2.5 — O Gemini 2.5 é o modelo de IA mais inteligente do Google, com capacidade de raciocínio.

Sélection Internationale

•Inteligência Artificial•Programação

DeepSeek-V3-0324 — Un puissant modèle de génération de texte, adapté à diverses applications de dialogue.

Tendance Mondiale

•Génération de texte•Système de dialogue

198