google
Switch Transformersは、専門家混合(Mixture of Experts, MoE)アーキテクチャに基づくマスク言語モデルで、T5アーキテクチャを改良し、疎なMLP層でフィードフォワード層を置き換え、32個の専門家ネットワークを含んでいます。このモデルは、訓練効率と微調整タスクの性能においてT5より優れており、自然言語処理関連のアプリケーションをサポートします。
KoboldAI
これは、Artetxeらの論文『Efficient Large Scale Language Modeling with Mixtures of Experts』におけるオリジナルの密集型67億パラメータモデルのHugging Face transformers適合バージョンです。