Light-R1-14B-DS

Un modelo matemático de código abierto con 14 mil millones de parámetros, entrenado mediante aprendizaje por refuerzo, con un rendimiento excelente.

Producto ComúnProductividadAprendizaje por refuerzoModelo matemático

Abrir sitio web

Light-R1-14B-DS es un modelo matemático de código abierto desarrollado por Beijing Qihu Technology Co., Ltd. Este modelo se entrenó mediante aprendizaje por refuerzo basado en DeepSeek-R1-Distill-Qwen-14B, y obtuvo puntuaciones altas de 74.0 y 60.2 en las pruebas de referencia de las competiciones matemáticas AIME24 y AIME25, superando a muchos modelos con 32 mil millones de parámetros. Ha logrado con éxito un intento de aprendizaje por refuerzo en un modelo ya ajustado para inferencia de cadenas largas con un presupuesto ligero, proporcionando a la comunidad de código abierto una poderosa herramienta de modelo matemático. La publicación de código abierto de este modelo ayudará a impulsar la aplicación del procesamiento del lenguaje natural en el ámbito educativo, especialmente en la resolución de problemas matemáticos, ofreciendo a investigadores y desarrolladores una valiosa base de investigación y herramientas prácticas.

Abrir sitio web

Light-R1-14B-DS Situación del tráfico más reciente

Total de visitas mensuales

25633376

Tasa de rebote

44.05%

Páginas promedio por visita

5.8

Duración promedio de la visita

00:04:53

Light-R1-14B-DS Tendencia de visitas

Light-R1-14B-DS Distribución geográfica de las visitas

Light-R1-14B-DS Fuentes de tráfico

Light-R1-14B-DS Alternativas

Light-R1-14B-DS — Un modelo matemático de código abierto con 14 mil millones de parámetros, entrenado mediante aprendizaje por refuerzo, con un rendimiento excelente.

Productividad

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Light-R1-14B-DS

Light-R1-14B-DS Situación del tráfico más reciente

Light-R1-14B-DS Tendencia de visitas

Light-R1-14B-DS Distribución geográfica de las visitas

Light-R1-14B-DS Fuentes de tráfico

Light-R1-14B-DS Alternativas

Light-R1-14B-DS — Un modelo matemático de código abierto con 14 mil millones de parámetros, entrenado mediante aprendizaje por refuerzo, con un rendimiento excelente.

InternLM-Math-Plus — Modelo de lenguaje grande de razonamiento matemático de código abierto y bilingüe.

DeepSeek-R1-Distill-Qwen-7B — DeepSeek-R1-Distill-Qwen-7B es un modelo de inferencia de código abierto, especializado en tareas de matemáticas, programación y razonamiento.

Skywork-OR1 — Modelo de inferencia de código matemático de alto rendimiento de código abierto de Kunlun Wanwei, con un rendimiento excepcional

DeepScaleR-1.5B-Preview — Un gran modelo lingüístico optimizado mediante aprendizaje por refuerzo, centrado en mejorar la capacidad de resolución de problemas matemáticos.

Qwen2.5-Math — Modelo de lenguaje grande de código abierto líder mundial en matemáticas

SERL — SERL es un kit de software de aprendizaje por refuerzo robótico eficiente.

agibot_x1_train — Robot humanoide modular para entrenamiento de aprendizaje por refuerzo

Unitree RL GYM — Plataforma robótica Unitree para aprendizaje por refuerzo

PRIME-RL — PRIME mejora la capacidad de razonamiento de los modelos de lenguaje mediante el refuerzo del aprendizaje por refuerzo implícito.

Light-R1 — Light-R1 es un proyecto de código abierto centrado en el razonamiento de cadenas largas (Long COT), que proporciona un método de entrenamiento desde cero mediante SFT, DPO y RL.

SWE-RL — Mejora la capacidad de razonamiento de los modelos de lenguaje grande en la evolución de software de código abierto mediante el aprendizaje por refuerzo

RL4VLM — Agente inteligente de toma de decisiones mediante el ajuste fino de un gran modelo de lenguaje visual mediante aprendizaje por refuerzo.

Tülu 3 405B — Tülu 3 405B es un modelo de lenguaje abierto de gran escala, cuyo rendimiento se ha mejorado mediante aprendizaje por refuerzo.

MuKoe — Implementación de MuZero de código abierto, framework de IA distribuido

Octogen: Un Intérprete de Código Abierto — Intérprete de código abierto impulsado por GPT-4 y CodeLlama

MathCoder — Modelo de Lenguaje Grande (LLM) para Razonamiento Matemático

Modelos de Código Granite — Modelos básicos de código abierto para tareas de inteligencia de código, compatibles con 116 lenguajes de programación.

DeepSeek-R1-Distill-Llama-70B — DeepSeek-R1-Distill-Llama-70B es un modelo de lenguaje grande optimizado mediante aprendizaje por refuerzo, centrado en la capacidad de razonamiento y diálogo.

DeepSeek-Coder-V2-Lite-Base — Modelo de lenguaje de código abierto que mejora la capacidad de programación y razonamiento matemático.

Microsoft Cognitive Toolkit — Herramienta de aprendizaje profundo distribuida de código abierto

DeepSeek-Coder-V2-Lite-Instruct — Modelo de lenguaje de código abierto que admite múltiples lenguajes de programación.

Numina Math 7B — Modelo de IA de código abierto en el ámbito de las matemáticas, que ayuda en las competiciones matemáticas.

API de Escritura a Mano Matemática — API que convierte texto matemático manuscrito en LaTeX.

DeepSeek-R1-Zero — DeepSeek-R1-Zero es un modelo de inferencia entrenado con aprendizaje por refuerzo a gran escala que ofrece una capacidad de razonamiento excepcional sin necesidad de ajuste fino supervisado.

Plan-Sora-Abierto — Proyecto de código abierto que reproduce el modelo Sora de OpenAI.

Search-R1 — Un marco de aprendizaje por refuerzo eficiente para entrenar modelos de lenguaje que realizan razonamiento y llaman a motores de búsqueda.

DIAMOND — Agente de aprendizaje por refuerzo entrenado en un modelo de mundo de difusión.

JaxMARL — JaxMARL: Biblioteca de aprendizaje por refuerzo multiagente

Llemma — Modelo de lenguaje matemático abierto

Light-R1-14B-DS

Light-R1-14B-DS Situación del tráfico más reciente

Light-R1-14B-DS Tendencia de visitas

Light-R1-14B-DS Distribución geográfica de las visitas

Light-R1-14B-DS Fuentes de tráfico

Light-R1-14B-DS Alternativas

Light-R1-14B-DS — Un modelo matemático de código abierto con 14 mil millones de parámetros, entrenado mediante aprendizaje por refuerzo, con un rendimiento excelente.

InternLM-Math-Plus — Modelo de lenguaje grande de razonamiento matemático de código abierto y bilingüe.

DeepSeek-R1-Distill-Qwen-7B — DeepSeek-R1-Distill-Qwen-7B es un modelo de inferencia de código abierto, especializado en tareas de matemáticas, programación y razonamiento.

Skywork-OR1 — Modelo de inferencia de código matemático de alto rendimiento de código abierto de Kunlun Wanwei, con un rendimiento excepcional

DeepScaleR-1.5B-Preview — Un gran modelo lingüístico optimizado mediante aprendizaje por refuerzo, centrado en mejorar la capacidad de resolución de problemas matemáticos.

Qwen2.5-Math — Modelo de lenguaje grande de código abierto líder mundial en matemáticas

SERL — SERL es un kit de software de aprendizaje por refuerzo robótico eficiente.

agibot_x1_train — Robot humanoide modular para entrenamiento de aprendizaje por refuerzo

Unitree RL GYM — Plataforma robótica Unitree para aprendizaje por refuerzo

PRIME-RL — PRIME mejora la capacidad de razonamiento de los modelos de lenguaje mediante el refuerzo del aprendizaje por refuerzo implícito.

GEO Services