Noticias de IA

No te pierdas ningún momento de la innovación global en IA

IA Diario

Tendencias diarias de la industria de la IA en tres minutos

Cronología de la IA

Hitos de la industria de la IA

Al hardware

lista todos los productos de hardware AI.

Guía de Monetización de la IA

Últimos Casos

Compartiendo casos de monetización de IA

Colección de Imágenes

Casos de monetización de creación de imágenes con IA

Colección de Videos

Casos de monetización de creación de videos con IA

Colección de Audio

Casos de monetización de creación de audio con IA

Colección de Contenido

Casos de monetización de redacción de contenido con IA

Tutoriales de IA

Últimos Tutoriales

Compartiendo gratuitamente los últimos tutoriales de IA

Rankings de Productos de IA

Ranking de Productos de IA

Muestra el ranking de visitas totales de sitios web de IA

Ranking de Crecimiento de Tráfico de IA

Rastrea los sitios web de IA de más rápido crecimiento por tráfico

Ranking de Descenso de Tráfico de IA

Se centra en los sitios web de IA con descensos de tráfico significativos

Ranking Semanal de IA

Muestra el ranking semanal de visitas de sitios web de IA

Rankings de Países Populares

Estados Unidos

Sitios web de IA más populares entre los usuarios estadounidenses

China

Sitios web de IA más populares entre los usuarios chinos

India

Sitios web de IA más populares entre los usuarios indios

Brasil

Sitios web de IA más populares entre los usuarios brasileños

Rankings de Categorías Populares

Generación de Imágenes

Ranking total de visitas de sitios web de generación de imágenes con IA

Asistente Personal

Ranking total de visitas de sitios web de asistentes personales con IA

Generación de Personajes

Ranking total de visitas de sitios web de generación de personajes con IA

Generación de Videos

Ranking total de visitas de sitios web de generación de videos con IA

Rankings de Datos de Código Abierto Populares

Ranking de Proyectos de IA

Proyectos de IA populares en GitHub por estrellas totales

Ranking de Crecimiento de Proyectos de IA

Proyectos de IA populares en GitHub por tasa de crecimiento

Ranking de Desarrolladores de IA

Ranking de desarrolladores de IA populares en GitHub

Ranking de Organizaciones de IA

Ranking de organizaciones de IA populares en GitHub

Categorías de Código Abierto Populares

Deepseek

Proyectos de código abierto de Deepseek populares en GitHub

TTS

Proyectos de código abierto de TTS populares en GitHub

LLM

Proyectos de código abierto de LLM populares en GitHub

ChatGPT

Proyectos de código abierto de ChatGPT populares en GitHub

Biblioteca de Proyectos de Código Abierto de IA

Visión General

Visión general de los proyectos de código abierto de IA populares en GitHub

Biblioteca de productos Navegación de herramientas

MILS

Los modelos lingüísticos de gran tamaño (LLM) pueden ver y oír sin necesidad de entrenamiento previo.

Producto ComúnImagenInteligencia ArtificialMultimodal

Abrir sitio web

MILS es un proyecto de código abierto publicado por Facebook Research, diseñado para demostrar la capacidad de los modelos lingüísticos de gran tamaño (LLM) para procesar tareas visuales y auditivas sin entrenamiento previo. Esta tecnología, mediante el uso de modelos preentrenados y algoritmos de optimización, permite la generación automática de descripciones de imágenes, audio y vídeo. Este avance tecnológico proporciona nuevas perspectivas para el desarrollo de la inteligencia artificial multimodal, mostrando el potencial de los LLM en tareas intermodales. El modelo está dirigido principalmente a investigadores y desarrolladores, ofreciéndoles una herramienta potente para explorar aplicaciones multimodales. Actualmente, el proyecto es de código abierto y gratuito, con el objetivo de impulsar la investigación académica y el desarrollo tecnológico.

Abrir sitio web

MILS Situación del tráfico más reciente

Total de visitas mensuales

492133528

Tasa de rebote

36.20%

Páginas promedio por visita

6.1

Duración promedio de la visita

00:06:33

MILS Tendencia de visitas

MILS Distribución geográfica de las visitas

MILS Fuentes de tráfico

MILS Alternativas

MILS — Los modelos lingüísticos de gran tamaño (LLM) pueden ver y oír sin necesidad de entrenamiento previo.

Imagen

•Inteligencia Artificial•Multimodal

198

Liquid — Un modelo generativo multimodal que integra la comprensión y generación visual.

Productividad

•Multimodal•Modelo generativo

Mistral Small 3.1 — Modelo de código abierto que mejora la capacidad de procesamiento de tareas de texto y visión.

Productividad

•Multimodal•Procesamiento de texto

276

Gemini Robotics — Modelo robótico basado en Gemini 2.0, que lleva la IA al mundo físico, con capacidades visuales, lingüísticas y de movimiento.

Selección Internacional

•Inteligencia artificial•Robótica

168

GO-1 — Zhiyuan lanza el primer modelo base de encarnación general GO-1, propone innovadoramente la arquitectura ViLLA e impulsa el desarrollo de la inteligencia encarnada.

Selección Nacional

•Inteligencia encarnada•Multimodal

240

SDK de Agentes de OpenAI — El SDK de Agentes de OpenAI es un kit de desarrollo para construir agentes autónomos, simplificando la orquestación de flujos de trabajo de múltiples agentes.

Selección Internacional

•Inteligencia Artificial•Agentes

516

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

Selección Internacional

•Inteligência Artificial•Modelo de Linguagem

156

UniTok — UniTok es un tokenizador visual unificado para la generación y comprensión visual.

Imagen

•Inteligencia artificial•Generación visual

162

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

Imagen

•Multimodal•Localización de imágenes

174

Mochii AI — Mochii AI es un ecosistema de inteligencia artificial personalizado respaldado por modelos de vanguardia, que impulsa el futuro de la colaboración entre humanos e IA.

Selección Nacional

•Inteligencia artificial•Herramientas de productividad

198

TheoremExplainAgent — TheoremExplainAgent es un sistema inteligente para generar vídeos explicativos multimodales de teoremas.

Educación

•Inteligencia artificial•Educación

138

ZeroBench — ZeroBench es un benchmark visual de alta dificultad para modelos multimodales grandes contemporáneos.

Imagen

•Multimodal•Benchmark

240

VideoRAG — VideoRAG es un marco de generación mejorado con recuperación diseñado para procesar videos de contexto extremadamente largo.

Video

•Comprensión de vídeo•Recuperación mejorada

192

OmniHuman-1 — OmniHuman-1 es un marco multimodal que genera videos humanos basados en una sola imagen de persona y señales de movimiento.

Video

•Inteligencia Artificial•Generación de Vídeo

5736

Janus-Pro-7B — Janus-Pro-7B es un nuevo marco autorregresivo que unifica la comprensión y la generación multimodales.

Imagen

•Multimodal•Generación de imágenes

1248

El Último Examen de la Humanidad — El Último Examen de la Humanidad es un banco de pruebas multimodal diseñado para evaluar las capacidades de los modelos de lenguaje a gran escala.

Otros

•Inteligencia Artificial•Banco de Pruebas

246

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

Imagen

•Multimodal•Descripción de imágenes

192

UI-TARS — UI-TARS es un modelo de agente GUI nativo de última generación para automatizar la interacción con interfaces gráficas de usuario.

Selección Nacional

•Inteligencia Artificial•Automatización

3954

MinMo — MinMo es un modelo de lenguaje grande multi modal diseñado para una interacción de voz fluida.

Chat

•Interacción de voz•Multimodal

252

Albus IA — Espacio de trabajo IA integral, con asistente de voz en tiempo real y lienzo multimodal para potenciar la creación y el pensamiento eficiente.

Productividad

•Inteligencia Artificial•Voz en tiempo real

210

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

Otros

•Inteligencia Artificial•Código Abierto

342

InternVL2_5-26B-MPO — Modelo de lenguaje grande multimodales que mejora la interacción entre la visión y el lenguaje.

Imagen

•Multimodal•Modelo de lenguaje grande

234

DiffSensei — Modelo de generación de cómics personalizado que conecta LLMs multimodales y modelos de difusión.

Imagen

•Generación de cómics•Multimodal

1032

InternVL2_5-4B-MPO-AWQ — Modelo de lenguaje grande multimodal, optimizado para la interacción entre imágenes y texto.

Imagen

•Multimodal•Modelo de lenguaje grande

228

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Otros

•Multimodal•Modelo de lenguaje grande

408

Valley — Modelo multimodal de gran escala que procesa datos de texto, imagen y vídeo.

Imagen

•Multimodal•Modelo de gran escala

348

FlagAI — Proyecto de código abierto integral de algoritmos, modelos y herramientas de optimización de modelos grandes.

Programación

•Inteligencia artificial•Modelos grandes

276

InternVL2_5-1B-MPO — Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

Productividad

•Multimodal•Modelo de lenguaje grande

276

Infini-Megrez — Modelo de comprensión multimodal para dispositivos perimetrales; la sinergia de software y hardware da rienda suelta a la inteligencia perimetral sin límites.

Productividad

•Inteligencia Artificial•Aprendizaje Profundo

276

WePOINTS — Proyecto WePOINTS: un marco unificado para modelos multimodales.

Programación

•Multimodal•Inteligencia Artificial

240