多言語事前学習済みデータセット
高品質英語ウェブデータセット
PurplelinkPL
FineWebは、金融分野のテキスト分類タスクに特化した事前学習モデルで、高品質の金融テキストデータを基に訓練され、金融関連の文書内容を正確に識別および分類することができます。
sudeshmu
LLaMAアーキテクチャに基づき、MoR(混合再帰)技術を採用した3億6000万パラメータの言語モデルで、FineWeb - Edu重複排除データセットでファインチューニングされ、動的ルーティングメカニズムと再帰式KVキャッシュにより高効率なテキスト生成能力を実現します。
karpathy
FineWeb-EDUデータセットで訓練されたGPT-2モデル。自然言語処理能力を示す。
mdouglas
これはGPT-2アーキテクチャに基づく774Mパラメータの言語モデルで、FineWebデータセットの1500億トークンでトレーニングされています。
kenhktsui
FastTextベースの軽量分類器で、ウェブコンテンツの教育価値を評価し、CPU処理速度を最適化
HuggingFaceFW
このモデルはFineWebアブレーション研究の一部で、パラメータ数は18.2億、Llamaアーキテクチャを基にし、FineWeb-Eduデータセットでトレーニングされ、英文テキスト補完タスクに適しています。
FineWebデータセットでトレーニングされたウェブ教育価値評価分類器、高品質な教育コンテンツの選別に使用