openaccess-ai-collective
DPOpenHermes 7B v2はOpenHermes-2.5-Mistral-7Bを基にした2回目のRL微調整モデルで、直接選好最適化(DPO)による強化学習を行い、Intel/orca_dpo_pairsとallenai/ultrafeedback_binarized_cleanedの選好データセットを使用しています。
Mistralアーキテクチャのランダム初期化モデルで、エンドツーエンドテストに適しています。
ミノタウロス13BはLlaMA-13Bを基に命令ファインチューニングを行ったモデルで、完全にオープンソースのデータセットを使用しており、再現性が保証されています。
Manticore 13B ChatはManticoreモデルを最適化したチャット会話モデルで、重複を排除したPygmalionデータセットのサブセットを使用して訓練され、純粋なチャットスタイルのプロンプト形式を採用し、ロールプレイングとさまざまな会話タスクをサポートします。
Manticore 13BはLlama 13Bモデルを複数の高品質データセットでファインチューニングした大規模言語モデルで、テキスト生成タスクに優れています。
これはMPT-7Bモデルをベースにファインチューニングされた大規模言語モデルで、WizardLM_alpaca_evol_instruct_70k_unfilteredデータセットを使用してトレーニングされました。