Bytedance
$1.2
入力トークン/百万
$3.6
出力トークン/百万
4
コンテキスト長
Tencent
$1
$4
32
$0.8
$2
$3
$9
16
$1.5
$6
128
Google
$0.35
$0.7
131
Alibaba
-
$12
28
Openai
$1.05
$4.2
1k
Chatglm
$100
google
Switch Transformersは、専門家混合(Mixture of Experts, MoE)アーキテクチャに基づくマスク言語モデルで、T5アーキテクチャを改良し、疎なMLP層でフィードフォワード層を置き換え、32個の専門家ネットワークを含んでいます。このモデルは、訓練効率と微調整タスクの性能においてT5より優れており、自然言語処理関連のアプリケーションをサポートします。
KoboldAI
これは、Artetxeらの論文『Efficient Large Scale Language Modeling with Mixtures of Experts』におけるオリジナルの密集型67億パラメータモデルのHugging Face transformers適合バージョンです。