Arquitectura MoE eficiente que redefine la inteligencia artificial en el borde. Líquid AI presenta el LFM2-8B-A1B, el primer modelo de mezcla de expertos (Mixture-of-Experts, MoE) de su serie LFM2, con un tamaño total de parámetros de 8.3B, pero activando solo alrededor de 1.5B parámetros por token. Esta mecanismo de activación escasa mantiene una alta capacidad de representación mientras reduce significativamente la carga computacional, lo que lo hace adecuado para escenarios en dispositivos con recursos limitados. A diferencia de los modelos MoE tradicionales en la nube, este diseño está optimizado para interacciones en tiempo real, desafiando la percepción del sector de que "los MoE de pequeño tamaño no son eficientes".

image.png

El modelo se basa en la arquitectura principal LFM2, que incluye 18 bloques de corto convolucional con controlador y 6 bloques de atención con consulta agrupada (GQA). Excepto las primeras dos capas, que permanecen densas para garantizar la estabilidad, el resto de las capas integra redes feedforward MoE dispersas. Cada capa tiene 32 expertos, activando solo los 4 mejores, y utiliza un router de sigmoid normalizada combinado con un sesgo adaptativo para lograr equilibrio de carga. Soporta una longitud de contexto de 32K y es compatible con múltiples idiomas como inglés, árabe, chino, francés, alemán, japonés, coreano y español.

Entrenamiento y rendimiento: Capacidad de 3-4B con 12T tokens. El LFM2-8B-A1B alcanza capacidades de 3-4B mediante un preentrenamiento de aproximadamente 12T tokens, incluyendo distribuciones de datos de 55% en inglés, 25% multilingüe y 20% en código. Posteriormente, se realiza un entrenamiento posterior con Liquid Preference Alignment (DPO/APO-Zero fusionado con normalización de longitud), utilizando precisión BF16/FP8 híbrida, mejorando la eficiencia de entrenamiento en más de 3 veces.

image.png

En pruebas de referencia, el modelo muestra una fuerza superior a sus competidores de tamaño similar:

  • Conocimiento e instrucciones: Puntuación MMLU-Pro 37.4 (mejora de 11.5 puntos frente al LFM2-2.6B), IFEval 77.6, Multi-IF 58.2.
  • Habilidades matemáticas: GSM8K 84.4, GSMPlus 64.8, MATH500 74.2.
  • Procesamiento multilingüe: MGSM 72.4, MMMLU 55.3.
  • Codificación y redacción: HumanEval+ 69.5, LiveCodeBench v6 21.0, EQ-Bench 44.2.

En general, su calidad de salida es comparable a modelos densos de 3-4B, destacando en tareas como conversaciones de múltiples rondas, escritura creativa, generación con aumento de recuperación (RAG) y llamadas a herramientas. Implementación e integración: 5 veces más rápido, adaptado a marcos principales. El LFM2-8B-A1B muestra una velocidad de inferencia significativamente superior en CPU y GPU.

En dispositivos como AMD Ryzen AI9HX370 y Galaxy S24 Ultra de Samsung, usando cuantización int4 y activación dinámica int8 con núcleos MoE personalizados de XNNPACK, su capacidad de decodificación es hasta 5 veces más rápida que Qwen3-1.7B e IBM Granite4.0. En la GPU, se integra con vLLM, soportando FlashInfer y compilación CUDA-graph, permitiendo una ejecución eficiente en solicitudes únicas y procesamiento en lote en línea.

Las variantes de cuantización han sido optimizadas para teléfonos inteligentes, tabletas y portátiles de alta configuración: Q4_0 de aproximadamente 4.7GB, F16 de aproximadamente 16.7GB. Los marcos compatibles incluyen llama.cpp (requiere versión b6709+ que apoye lfm2moe), ExecuTorch (CPU móvil/embebido) y vLLM (GPU). Además, se proporcionan archivos de cuantización GGUF en Hugging Face y cuadernos de microajuste en Colab, facilitando que los desarrolladores comiencen rápidamente. El modelo ya está disponible para prueba en Liquid Playground.

Open source e impacto: Impulsando la democratización de la IA en dispositivos. El LFM2-8B-A1B está abierto bajo la licencia LFM Open License v1.0 (basada en Apache2.0), con pesos y detalles técnicos subidos a Hugging Face (LiquidAI/LFM2-8B-A1B). Esta publicación no solo reduce la barrera para implementar IA, sino que también inyecta nueva vitalidad en el cálculo en el borde: desde chats en tiempo real con protección de privacidad hasta sistemas inteligentes embebidos, todos pueden beneficiarse. Opinión de AIbase: En un momento en que los costos de IA en la nube están subiendo, modelos como el LFM2-8B-A1B están acelerando la tendencia de "IA descentralizada".

Proyecto: https://huggingface.co/LiquidAI/LFM2-8B-A1B