google
Switch Transformers是基於專家混合(Mixture of Experts, MoE)架構的掩碼語言模型,在T5架構基礎上改進,用稀疏MLP層替代前饋層,包含32個專家網絡。該模型在訓練效率和微調任務表現上優於T5,支持自然語言處理相關應用。
KoboldAI
這是Artetxe等人論文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67億參數模型的Hugging Face transformers適配版本。