google
Switch Transformers是基于专家混合(Mixture of Experts, MoE)架构的掩码语言模型,在T5架构基础上改进,用稀疏MLP层替代前馈层,包含32个专家网络。该模型在训练效率和微调任务表现上优于T5,支持自然语言处理相关应用。
KoboldAI
这是Artetxe等人论文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67亿参数模型的Hugging Face transformers适配版本。