openaccess-ai-collective
DPOpenHermes 7B v2是基于OpenHermes-2.5-Mistral-7B的第二次RL微调模型,通过直接偏好优化(DPO)进行强化学习,使用了Intel/orca_dpo_pairs和allenai/ultrafeedback_binarized_cleaned偏好数据集。
Mistral架构的随机初始化模型,适用于端到端测试。
Minotaur 13B是基于LlaMA-13B进行指令微调的模型,使用完全开源数据集进行微调,确保可复现性。
Manticore 13B Chat是基于Manticore模型优化而来的聊天对话模型,采用去重的Pygmalion数据集子集进行训练,使用纯聊天风格提示格式,支持角色扮演和多种对话任务。
Manticore 13B是基于Llama 13B模型在多个高质量数据集上微调的大语言模型,擅长文本生成任务。
这是一个基于MPT-7B模型微调的大语言模型,使用了WizardLM_alpaca_evol_instruct_70k_unfiltered数据集进行训练。