O modelo BERT alcançou avanços significativos na área de processamento de linguagem natural. O RoBERTa é um modelo que apresenta diversas melhorias em relação ao BERT, melhorando o desempenho através de mascaramento dinâmico, remoção da previsão da próxima sentença, treinamento com sentenças mais longas, aumento do vocabulário e uso de lotes maiores. O RoBERTa superou o modelo BERT em benchmarks populares, adicionando apenas 15 milhões de parâmetros extras e mantendo uma velocidade de inferência comparável à do BERT.