ModernBERT-base es un modelo Transformer codificador bidireccional moderno, preentrenado con 2 billones de datos de texto inglés y código, que admite de forma nativa contextos de hasta 8192 tokens. Este modelo incorpora las últimas mejoras arquitectónicas, como incrustaciones posicionales rotatorias (RoPE), atención alterna local-global y eliminación de relleno (Unpadding), lo que le permite destacar en tareas de procesamiento de textos largos. ModernBERT-base es adecuado para tareas que requieren el procesamiento de documentos largos, como recuperación de información, clasificación y búsqueda semántica en grandes corpus. Los datos de entrenamiento del modelo son principalmente inglés y código, por lo que su rendimiento puede disminuir en otros idiomas.