ModernBERT-large é um modelo Transformer de codificador bidirecional moderno (estilo BERT), pré-treinado em 2 trilhões de dados de inglês e código, com comprimento de contexto nativo de até 8192 tokens. O modelo emprega as mais recentes melhorias de arquitetura, como incorporação de posição rotacional (RoPE) para suporte a contextos longos, atenção alternada local-global para melhorar a eficiência de entradas longas e atenção sem preenchimento e Flash Attention para melhorar a eficiência de inferência. O ModernBERT-large é adequado para tarefas que exigem o processamento de documentos longos, como recuperação, classificação e busca semântica em grandes corpora. Os dados de treinamento do modelo são principalmente inglês e código, portanto, seu desempenho pode ser menor em outros idiomas.