openaccess-ai-collective
DPOpenHermes 7B v2是基於OpenHermes-2.5-Mistral-7B的第二次RL微調模型,通過直接偏好優化(DPO)進行強化學習,使用了Intel/orca_dpo_pairs和allenai/ultrafeedback_binarized_cleaned偏好數據集。
Mistral架構的隨機初始化模型,適用於端到端測試。
Minotaur 13B是基於LlaMA-13B進行指令微調的模型,使用完全開源數據集進行微調,確保可復現性。
Manticore 13B Chat是基於Manticore模型優化而來的聊天對話模型,採用去重的Pygmalion數據集子集進行訓練,使用純聊天風格提示格式,支持角色扮演和多種對話任務。
Manticore 13B是基於Llama 13B模型在多個高質量數據集上微調的大語言模型,擅長文本生成任務。
這是一個基於MPT-7B模型微調的大語言模型,使用了WizardLM_alpaca_evol_instruct_70k_unfiltered數據集進行訓練。