radicalnumerics
RND1是一個實驗性的擴散語言模型,擁有300億參數,採用稀疏專家混合架構。該模型從預訓練的自迴歸基礎模型轉換而來,支持基於擴散的文本生成,每個標記僅激活30億參數,在計算效率和模型容量之間取得平衡。