ModernBERT-large es un modelo de transformador codificador bidireccional moderno (estilo BERT) preentrenado en 2 billones de datos de inglés y código, con una longitud de contexto nativa de hasta 8192 tokens. Este modelo utiliza las últimas mejoras de arquitectura, como la incrustación de posición rotacional (RoPE) para admitir contextos largos, la atención alterna local-global para mejorar la eficiencia de las entradas largas, y Flash Attention sin relleno para mejorar la eficiencia de la inferencia. ModernBERT-large es adecuado para tareas que requieren el procesamiento de documentos largos, como la recuperación de información, la clasificación y la búsqueda semántica en grandes corpus. Los datos de entrenamiento del modelo son principalmente inglés y código, por lo que su rendimiento puede ser inferior en otros idiomas.