Bytedance
$1.2
输入tokens/百万
$3.6
输出tokens/百万
4
上下文长度
Tencent
$1
$4
32
$0.8
$2
$3
$9
16
$1.5
$6
128
Google
$0.35
$0.7
131
Alibaba
-
$12
28
Openai
$1.05
$4.2
1k
Chatglm
$100
google
Switch Transformers是基于专家混合(Mixture of Experts, MoE)架构的掩码语言模型,在T5架构基础上改进,用稀疏MLP层替代前馈层,包含32个专家网络。该模型在训练效率和微调任务表现上优于T5,支持自然语言处理相关应用。
KoboldAI
这是Artetxe等人论文《Efficient Large Scale Language Modeling with Mixtures of Experts》中原生密集67亿参数模型的Hugging Face transformers适配版本。