DeepSeek于2月11日灰度更新网页端和APP端,14日正式官宣为新长文本模型结构测试。此次更新支持最高100万token超长上下文,知识库更新至2025年5月。但API服务仍为V3.2版本,仅支持128K上下文。业内视此次更新为下一代V4模型发布前的技术预热和压力测试,引发对V4的广泛期待。更新后,DeepSeek的交互风格也发生明显变化。
DeepSeek下一代旗舰模型(或为DeepSeek V4)最快有望于今年2月中旬发布。据开发者发现,其GitHub仓库更新中多处引用“MODEL1”标识符,暗示新模型将具备更强代码生成能力。
中国AI公司DeepSeek即将发布新一代大模型DeepSeek V4,重点强化代码生成能力,瞄准竞争激烈的AI编程赛道。
新加坡AISG发布新一代大语言模型Qwen-Sea-Lion-v4,底层架构从Meta Llama切换为阿里Qwen3-32B,在东南亚语言评估基准Sea-Helm的<2000亿参数开源榜单夺冠。切换主因:Qwen3预训练覆盖119种语言/方言,对印尼语等低资源语言适配更优;分词优化放弃西方常用方案,原生多语架构降低后续训练门槛。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
strangervisionhf
这是一个基于DeepSeek-OCR的图像文本识别模型,专门解决了在最新版本transformers库中的兼容性问题,使模型能够在transformers v4.57.1等最新版本中顺利运行。
Clemylia
Lam-2是基于自定义架构Aricate V4开发的第二代小型语言模型(SLM),在问答任务中表现出色,具有卓越的语言连贯性和创造力。相比前代产品,Lam-2在语法正确性和文本生成质量上有显著提升。
rtr46
meiki.text.detect.v0.1是专门针对视频游戏和漫画文本检测的高精度、低延迟OCR模型,在日语相关内容上表现优异。该模型基于D-FINE检测器架构,采用MobileNet v4 small作为骨干网络,提供两种分辨率变体以适应不同应用场景。
bartowski
这是TheDrummer的Cydonia - R1 - 24B - v4.1模型的量化版本,使用llama.cpp工具进行多种精度量化处理,可在不同硬件条件下高效运行,为用户提供更多选择。
jinaai
Jina Embeddings v4 是一款专为多模态和多语言检索设计的通用嵌入模型,特别适用于复杂文档的检索,包括包含图表、表格和插图的视觉丰富文档。
Trendyol
Trendyol LLM v4.1.0 是一款基于 Trendyol LLM base v4.0(在130亿token上继续预训练的Qwen2.5 7B版本)的生成模型,专注于电商领域和土耳其语理解。
yukiarimo
Yuna Ai V4是一款基于LLaMA 3.1 8B架构的多语言文本生成模型,专注于提供智能对话和知识问答体验。经过3B+令牌训练,具备量子思维等先进特性,在对话能力和创造力方面表现突出。
hum-ma
CyberRealistic XL v4 是一个高质量的文本生成图像模型,专注于生成逼真的图像。
Undi95
Lumimaid与Magnum v4合并的12B参数大语言模型,采用DELLA合并方法并加入针对Claude输入优化的Nemo模型
strangerzonehf
基于LoRA技术的NFT数字艺术生成模型,专为V4版本NFT设计优化
backyardai
马格南V4 72B是基于Qwen打造的模型系列中的一员,旨在复刻Claude 3系列模型的散文质量,适用于本地AI聊天应用。
anthracite-org
马格南v4-22B是基于Mistral-Small-Instruct-2409微调的大型语言模型,专门致力于复刻Claude 3系列模型(尤其是Sonnet和Opus)的文本质量。该模型提供了GGUF量化版本,支持32K上下文长度,在多个高质量数据集上进行训练。
fluently
Fluently XL V4 是一款高性能的文本生成图像模型,在imgsys.org竞技场排名第四,以其精准的人体结构和艺术与写实兼备的特点著称。
Fluently V4.0-LCM 是一个全能任务模型,通过融合多模型和LCM技术实现极速图像生成,具备精准解剖结构和高艺术表现力。
Fluently V4-inpainting 是一个通过融合多个检查点和LoRA技术打造的多功能图像处理模型,特别擅长图像修复和扩展任务。
TheBloke
Athena v4是一个实验性的大型语言模型,适用于角色扮演、情感角色扮演及通用场景。使用Alpaca格式提示模板。
CobraMamba
Mamba - GPT - 3B - V4是一款性能卓越的3B参数语言模型,在Open LLM排行榜上表现优异,超越dolly - v2 - 12b,提供高质量的语言处理能力。
shibal1
Anything V4 是一个为二次元爱好者准备的潜在扩散模型,旨在通过简单的提示生成高质量、高细节的动漫风格图像。
xyn-ai
Anything V4 是一款面向动漫爱好者的潜在扩散模型,能够根据少量提示词生成高质量、高细节的动漫风格图像。
prompthero
基于12.4万张Midjourney v4图像训练的文本生成图像模型,使用Stable Diffusion v1.5框架训练