O projeto TinyLlama visa pré-treinar um modelo Llama de 1,1B de parâmetros em 3 trilhões de tokens. Com algumas otimizações adequadas, conseguimos concluir o treinamento em apenas 90 dias usando 16 GPUs A100-40G. O treinamento começou em 01/09/2023. Adotamos a mesma arquitetura e tokenizador do Llama 2. Isso significa que o TinyLlama pode ser usado em muitos projetos de código aberto baseados no Llama. Além disso, com apenas 1,1B de parâmetros, sua compactação o torna adequado para aplicações com recursos computacionais e de memória limitados.