Na área da inteligência artificial (IA) multimodal, engenheiros da Apple colaboraram com uma equipe de pesquisa da Sorbonne Université, na França, em um estudo importante. Recentemente, a mídia tecnológica marktechpost publicou um artigo sobre isso, explorando a aplicação e o potencial de modelos de fusão precoce e tardia em IA multimodal. A pesquisa indica que modelos de fusão precoce treinados do zero oferecem vantagens em termos de eficiência computacional e escalabilidade.
O objetivo da IA multimodal é processar simultaneamente vários tipos de dados, como imagens e texto. No entanto, integrar esses dados de diferentes fontes sempre foi um desafio. As técnicas atuais geralmente empregam uma estratégia de fusão tardia (late-fusion), combinando modelos unimodais pré-treinados (como modelos visuais e de linguagem). Embora esse método seja simples, ele frequentemente sofre de vieses inerentes ao pré-treinamento unimodal, limitando a capacidade do modelo de capturar relações intermodais e, consequentemente, a compreensão multimodal real.
Observação da imagem: Imagem gerada por IA, fornecida pela Midjourney.
À medida que o sistema escala, os parâmetros, as necessidades de pré-treinamento e as características de expansão dos diferentes componentes diferem significativamente, tornando a alocação de recursos computacionais complexa. Em tarefas que exigem raciocínio multimodal profundo, o desempenho é severamente afetado. Nesse contexto, a equipe de pesquisa da Apple e da Sorbonne Université desafiou as escolhas arquitetônicas tradicionais, explorando a fundo as características de escalabilidade de modelos multimodais nativos (NMMs).
A pesquisa comparou modelos de fusão precoce (early-fusion) e fusão tardia. Os resultados mostraram que, embora ambos apresentem desempenho semelhante quando treinados do zero, os modelos de fusão precoce são mais eficientes em orçamentos computacionais mais baixos e são mais fáceis de escalonar. Além disso, a equipe explorou arquiteturas esparsas de mistura de especialistas (MoE), que alocam parâmetros dinamicamente, otimizando-os para diferentes modalidades. Em comparação com modelos densos, os modelos esparsos mostraram vantagens significativas em modelos de menor escala.
O estudo mostrou que os modelos esparsos tendem a escalar o número de tokens de treinamento (training tokens), em vez de parâmetros ativos (active parameters), em contraste com modelos densos. Por meio de experimentos sistemáticos, a equipe de pesquisa treinou modelos multimodais com 0,3 bilhões a 4 bilhões de parâmetros ativos, validando o potencial de fusão precoce e arquitetura esparsa no processamento multimodal. Essas descobertas não apenas desafiam os conceitos de design tradicionais, mas também fornecem novas ideias para o desenvolvimento de sistemas de IA multimodal eficientes no futuro.