radicalnumerics
RND1は実験的な拡散言語モデルで、300億のパラメータを持ち、疎なエキスパート混合アーキテクチャを採用しています。このモデルは事前学習された自己回帰ベースモデルから変換され、拡散ベースのテキスト生成をサポートしており、各トークンで300億のパラメータのみがアクティブ化され、計算効率とモデル容量のバランスを取っています。