Information

Latest AI News

Explore AI Frontiers, Master Industry Trends

AI Daily Brief

Your Daily AI Brief - Never Miss What's Next

Information

AI Product Finder

Smart Product Discovery - Comprehensive Market Intelligence

AI Product Rankings

AI Product Power Rankings - Performance, Buzz & Trends

AI Product Submit

Submit Your AI Product - Amplify Reach & Drive Growth

Tools

AI Tools Directory

Discover The Best AI Websites & Tools

Tools

GEO Brand Visibility

All-in-One GEO Brand Insights Platform

AI Visibility Audit

Quickly check how your brand is perceived and presented in AI-powered search results.

AI Search Visibility Checker

Detect brand's visibility on AI platforms

GEO Ranking Monitor

Batch queries & scheduled GEO ranking tracking

AI Conversation Insight

Discover trending questions users ask AI to guide content strategy

GEO Promotion Link Detection

Quickly evaluate the citation of promotion articles on AI platforms

Service

GEO Ranking Optimization System

Own your own GEO system and become a professional GEO optimization service provider.

GEO Ranking Optimization

Achieve Dominant Visibility in AI Search for Your Business or Brand with GEO Services

Information

MCP Servers

Discover Popular AI-MCP Services - Find Your Perfect Match Instantly

MCP Client

Easy MCP Client Integration - Access Powerful AI Capabilities

MCP Case Tutorials

Master MCP Usage - From Beginner to Expert

MCP Ranking

Top MCP Service Performance Rankings - Find Your Best Choice

MCP Service Submission

Publish & Promote Your MCP Services

Tools

MCP Playground

Test MCP Services Freely - Quick Online Experience

MCP Inspector

Quick MCP Service Testing - Fast Deployment

Information

LLM API Hub

One-stop integration for all major LLM APIs.

AI Models Finder

Comprehensive AI Models Collection for All Your Development & Research Needs

Model Providers

Discover Trusted AI Model Partners - Guaranteed Reliable Support

LLM Leaderboard

AI LLM Power Rankings - Performance, Buzz & Trends

Tools

LLM API Proxy Checker

Choose reliable LLM API proxies with our 5-dimension test

Compare LLMs

Multi-Dimensional Large Model Comparison - Find Your Perfect Match

LLM Cost Calculator

Calculate AI Model Costs Accurately - Optimize Your Budget

LLM Arena

Multi-Model Real-Time Evaluation & Quick Output Comparison

AI Model Compatibility Checker

Free PC Hardware Test for DeepSeek & Llama

AI Deployment Calculator

Enter Your Large Model Computing Requirements for Instant GPU, Memory & Server Configuration Recommendations

AI Marketplace

Liquid AI lanza LFM2-8B-A1B: 8B de parámetros activados solo 1.5B, velocidad de IA de 4B en un teléfono!

AIbase基地

Publicado elNoticias de IA · 7 minutos de lectura · Oct 11, 2025

Arquitectura MoE eficiente que redefine la inteligencia artificial en el borde. Líquid AI presenta el LFM2-8B-A1B, el primer modelo de mezcla de expertos (Mixture-of-Experts, MoE) de su serie LFM2, con un tamaño total de parámetros de 8.3B, pero activando solo alrededor de 1.5B parámetros por token. Esta mecanismo de activación escasa mantiene una alta capacidad de representación mientras reduce significativamente la carga computacional, lo que lo hace adecuado para escenarios en dispositivos con recursos limitados. A diferencia de los modelos MoE tradicionales en la nube, este diseño está optimizado para interacciones en tiempo real, desafiando la percepción del sector de que "los MoE de pequeño tamaño no son eficientes".

El modelo se basa en la arquitectura principal LFM2, que incluye 18 bloques de corto convolucional con controlador y 6 bloques de atención con consulta agrupada (GQA). Excepto las primeras dos capas, que permanecen densas para garantizar la estabilidad, el resto de las capas integra redes feedforward MoE dispersas. Cada capa tiene 32 expertos, activando solo los 4 mejores, y utiliza un router de sigmoid normalizada combinado con un sesgo adaptativo para lograr equilibrio de carga. Soporta una longitud de contexto de 32K y es compatible con múltiples idiomas como inglés, árabe, chino, francés, alemán, japonés, coreano y español.

Entrenamiento y rendimiento: Capacidad de 3-4B con 12T tokens. El LFM2-8B-A1B alcanza capacidades de 3-4B mediante un preentrenamiento de aproximadamente 12T tokens, incluyendo distribuciones de datos de 55% en inglés, 25% multilingüe y 20% en código. Posteriormente, se realiza un entrenamiento posterior con Liquid Preference Alignment (DPO/APO-Zero fusionado con normalización de longitud), utilizando precisión BF16/FP8 híbrida, mejorando la eficiencia de entrenamiento en más de 3 veces.

En pruebas de referencia, el modelo muestra una fuerza superior a sus competidores de tamaño similar:

Conocimiento e instrucciones: Puntuación MMLU-Pro 37.4 (mejora de 11.5 puntos frente al LFM2-2.6B), IFEval 77.6, Multi-IF 58.2.
Habilidades matemáticas: GSM8K 84.4, GSMPlus 64.8, MATH500 74.2.
Procesamiento multilingüe: MGSM 72.4, MMMLU 55.3.
Codificación y redacción: HumanEval+ 69.5, LiveCodeBench v6 21.0, EQ-Bench 44.2.

En general, su calidad de salida es comparable a modelos densos de 3-4B, destacando en tareas como conversaciones de múltiples rondas, escritura creativa, generación con aumento de recuperación (RAG) y llamadas a herramientas. Implementación e integración: 5 veces más rápido, adaptado a marcos principales. El LFM2-8B-A1B muestra una velocidad de inferencia significativamente superior en CPU y GPU.

En dispositivos como AMD Ryzen AI9HX370 y Galaxy S24 Ultra de Samsung, usando cuantización int4 y activación dinámica int8 con núcleos MoE personalizados de XNNPACK, su capacidad de decodificación es hasta 5 veces más rápida que Qwen3-1.7B e IBM Granite4.0. En la GPU, se integra con vLLM, soportando FlashInfer y compilación CUDA-graph, permitiendo una ejecución eficiente en solicitudes únicas y procesamiento en lote en línea.

Las variantes de cuantización han sido optimizadas para teléfonos inteligentes, tabletas y portátiles de alta configuración: Q4_0 de aproximadamente 4.7GB, F16 de aproximadamente 16.7GB. Los marcos compatibles incluyen llama.cpp (requiere versión b6709+ que apoye lfm2moe), ExecuTorch (CPU móvil/embebido) y vLLM (GPU). Además, se proporcionan archivos de cuantización GGUF en Hugging Face y cuadernos de microajuste en Colab, facilitando que los desarrolladores comiencen rápidamente. El modelo ya está disponible para prueba en Liquid Playground.

Open source e impacto: Impulsando la democratización de la IA en dispositivos. El LFM2-8B-A1B está abierto bajo la licencia LFM Open License v1.0 (basada en Apache2.0), con pesos y detalles técnicos subidos a Hugging Face (LiquidAI/LFM2-8B-A1B). Esta publicación no solo reduce la barrera para implementar IA, sino que también inyecta nueva vitalidad en el cálculo en el borde: desde chats en tiempo real con protección de privacidad hasta sistemas inteligentes embebidos, todos pueden beneficiarse. Opinión de AIbase: En un momento en que los costos de IA en la nube están subiendo, modelos como el LFM2-8B-A1B están acelerando la tendencia de "IA descentralizada".

Proyecto: https://huggingface.co/LiquidAI/LFM2-8B-A1B

MoE LFM2-8B-A1B Mecanismodeactivacióndispersa IAenelborde

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

El equipo de grandes modelos de Bailing de Ant Group presenta en código abierto Ring-flash-linear-2.0-128K, que combina atención lineal mixta y arquitectura MoE para redefinir la eficiencia en programación con textos largos

Ant Group presenta en código abierto el gran modelo Bailing Ring-flash-linear-2.0-128K, especializado en programación con textos muy largos. Utiliza una combinación de atención lineal y arquitectura MoE dispersa, logrando un rendimiento comparable al de un modelo denso de 40B con solo 6,1B de parámetros activados, obteniendo los mejores resultados en generación de código y agentes inteligentes, resolviendo eficientemente las dificultades del procesamiento de contextos prolongados.

Oct 28, 2025

350

El estudio revela que grandes cantidades de datos basura afectan la capacidad de razonamiento de los modelos de lenguaje grandes

Nuevo estudio advierte: exposición continua de modelos de lenguaje a contenido web sin sentido reduce su rendimiento, dañando razonamiento y confianza. Equipos universitarios estadounidenses proponen 'hipótesis de deterioro cerebral en LLM'.....

Oct 27, 2025

310

Alibaba Tongyi Qianwen lanza el modelo ligero Qwen3-VL: las versiones de 4B y 8B tienen un rendimiento cercano al de los modelos principales anteriores de 72B

El equipo de Alibaba Tongyi Qianwen lanza dos modelos ligeros de la serie Qwen3-VL, con escalas de parámetros de 4B y 8B. Esta serie es la familia de modelos de lenguaje visual más potente hasta la fecha, y la incorporación de versiones con pequeños parámetros tiene como fin reducir el umbral de implementación, manteniendo al mismo tiempo un fuerte rendimiento. Cada escala ofrece dos versiones: seguimiento de instrucciones y razonamiento en cadena de instrucciones, brindando a los desarrolladores una opción más flexible.

Oct 15, 2025

280

Microsoft lança UserLM-8b: modelo de parceiro de prática para aprimorar assistentes de IA com conversas multilinha realistas

Microsoft lanza UserLM-8b, modelo que simula diálogos reales para evaluar asistentes AI, generando interacciones dinámicas y mejorando la precisión de pruebas.....

Oct 10, 2025

360

vivo Blue Heart 3B presenta con impacto un modelo de gran tamaño en el lado del dispositivo: integra cinco funciones principales, con un rendimiento superior a todos los modelos de 8B

vivo lanzó el modelo de gran tamaño de razonamiento multimodal Blue Heart 3B en la conferencia de desarrolladores de 2025. Este modelo de 3 mil millones de parámetros es el primer One Model que integra cinco funciones principales en la industria. Después de un año de entrenamiento y optimización, logró un gran avance en la implementación local de capacidades complejas de IA multimodal en dispositivos móviles, consolidando su liderazgo en la industria.

Oct 10, 2025

260

Un motor de razonamiento pequeño pero poderoso. ¡Ring-mini-2.0 se lanza con un impacto significativo! El rendimiento supera a los modelos de 10B

Hoy lanzamos oficialmente Ring-mini-2.0, un modelo MoE de alto rendimiento optimizado en profundidad basado en la arquitectura Ling-mini-2.0. La cantidad total de parámetros de Ring-mini-2.0 alcanza los 16B, pero en ejecución real solo se activan 1.4B parámetros, lo que permite lograr una capacidad de razonamiento equivalente a modelos densos de menos de 10B. Este modelo destaca especialmente en tareas de razonamiento lógico, programación y matemáticas, y admite un contexto largo de 128K, lo que lo hace adecuado para diversos aplicaciones

Sep 18, 2025

250

El nuevo modelo ERNIE-4.5-21B-A3B-Thinking de Baidu Wenshi alcanza la cima de Hugging Face

El modelo ERNIE-4.5-21B-A3B-Thinking de Baidu, ahora en código abierto, lidera en generación de texto en Hugging Face. Con arquitectura MoE y 21B parámetros, activa solo 3B por token, optimizando eficiencia.....

Sep 15, 2025

340

¡Desafía la percepción mainstream! Hormigas y la Universidad de las Ciencias y Tecnologías de China presentan el primer modelo de lenguaje difusivo MoE nativo en la Conferencia de Bund 2025

Ant Group y la Universidad de Renmin desarrollan LLaDA-MoE, un modelo de lenguaje de difusión basado en 20T de datos. Supera a LLaDA1.0/1.5 y Dream-7B, igualando modelos autoregresivos con mayor velocidad. Próxima apertura de código para impulsar la IA.....

Sep 12, 2025

170

El modelo de inteligencia artificial Basado en Silicio se ha lanzado, Ling-mini-2.0 de Ant Group logra un doble éxito en velocidad y rendimiento

Plataforma lanza Ling-mini-2.0 de Ant, modelo MoE con 16B parámetros, activando solo 1.4B por token, logrando alta velocidad y rendimiento.....

Sep 10, 2025

400

¡80 mil millones de parámetros solo con 3 mil millones! El nuevo modelo Qwen3 de Alibaba aumenta 10 veces la velocidad de razonamiento

El equipo de Tongyi Qianwen de Alibaba acaba de lanzar una gran noticia a los desarrolladores de todo el mundo: el modelo Qwen3-Next-80B-A3B-Instruct que se lanzará pronto rompe completamente la lógica tradicional de los grandes modelos. Este aparentemente contradictorio conjunto de números oculta un avance tecnológico asombroso: tiene un total de 80 mil millones de parámetros, pero solo 3 mil millones están activados, como un superdeportivo que utiliza solo una décima parte del motor pero alcanza diez veces la velocidad. Hace pocas horas, Hugging Face Tr

Sep 10, 2025

310