魔形智能完成数亿元Pre-A轮融资,由达泰资本领投,多家机构跟投,老股东持续加码。公司成立两年完成三轮融资,定位AGI的Token基础设施提供商,核心产品助力人工智能发展。
蚂蚁集团百灵大模型团队今日开源万亿级旗舰模型Ling-2.6-1T,该模型不追求参数堆叠,而是优化指令执行、工具适配及长上下文能力。其创新混合架构通过强化奖励策略降低Token开销,实现高效“快思考”机制。
蚂蚁百灵大模型今日开源万亿参数旗舰模型Ling-2.6-1T,采用MLA与LinearAttention混合架构实现“快思考”机制,提升智效比,在评测中展现高Token效率,解决真实生产流中的效率难题。
大模型竞争焦点正从性能比拼转向企业场景的规模化应用,追求低成本、高效率。蚂蚁数科推出Ling-2.6-flash商业版LingDT-2.6-flash,主打“Token效率”,相比同参数级别模型可节省90%Token消耗,更快更省,适配企业真实场景大规模部署。
安静的待在你电脑里工作的桌面 AI 助手。
统一大语言模型API网关,支持超30家提供商,价优稳定免订阅
智能AI令牌管理和优化
一款通过向AI基金经理Lucy推销token来说服其投资的货币实验性游戏。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
Tencent
$1
$8
$0.75
$0.35
400
Ali-Yaser
本模型是基于meta-llama/Llama-3.3-70B-Instruct进行微调得到的版本,使用mlabonne/FineTome-100k数据集进行训练,包含100k token数据。模型采用Unsloth和Huggingface TRL库进行微调,支持英文语言处理。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
gabriellarson
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理和智能体交互能力。仅使用12T token训练,在多个公开基准测试中表现出色,支持高达512K的原生长上下文处理。
ByteDance-Seed
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理、智能体交互能力和通用性能。该模型仅使用12T token训练,在多个公开基准测试中表现出色。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
DavidAU
这是一个基于Qwen 3平台的编码/编程模型,具备完整的推理能力,速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于Transformer架构的文本生成模型,专注于软件工程任务,支持40k token的上下文长度。
百度ERNIE 4.5 0.3B是基于Transformer架构的双语文本生成模型,在通用语言理解和生成任务上表现优异,支持中英双语处理,上下文长度达128k token。
SynthLabsAI
ALP_DeepScaleR_1.5B_C16K是基于DeepScaleR-1.5B模型,采用自适应长度惩罚(ALP)方法进行训练的模型,能在保持性能的同时显著减少token使用量。
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
HiveChat是一个专为中小团队设计的AI聊天应用,支持多种大模型服务商,提供分组管理、Token限额、第三方登录等功能。
这是一个实现MCP代码执行模式的服务器,通过单工具桥接和零上下文发现机制,将MCP工具调用开销从数万token降至约200token,并在根容器中安全执行Python代码,支持数据科学和安全隔离。
MCP文本编辑器服务器是一个基于Model Context Protocol的文本文件编辑服务,提供行导向的文本文件操作能力,支持高效的部分文件访问以减少LLM工具的token消耗。具备并发编辑检测、多文件原子操作和多种编码支持等特性。
Decompose是一个用于AI代理的确定性文本分类工具,通过纯正则表达式和启发式方法将文本分解为结构化语义单元,无需LLM即可实现快速、离线的文档预处理,显著减少LLM处理的token数量。
钉钉MCP服务是一个基于Model Control Protocol的钉钉API访问服务,提供获取token、部门及用户信息等功能。
godoc-mcp是一个高效的Go文档访问工具,通过MCP协议为LLM提供结构化、低token消耗的Go项目文档访问服务,支持本地和远程包文档查询。
OneTool是一个统一的MCP服务器,通过Python API暴露100多种工具,大幅减少AI调用工具时的token消耗和成本,避免上下文污染,支持Web搜索、数据库、文件操作、图表绘制等多种功能。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
一个MCP服务器项目,提供基于token数量自动选择OpenAI O3或Google Gemini 2.5 Pro模型的服务,支持文件路径递归嵌入提示词,适用于代码审查和复杂问题解决。
用于对xcstrings(字符串目录)文件进行增删改查操作的CLI工具和MCP服务器,提供针对性的本地化键值管理,避免AI助手处理大型文件时消耗过多token。
MCP Chain of Draft Prompt Tool是一个增强LLM推理能力的工具,通过将标准提示转换为Chain of Draft或Chain of Thought格式,显著提高推理质量并减少token使用。
bonk-mcp服务器实现了Solana区块链功能,支持在LetsBonk平台上创建和交易代币。
一个基于MCP协议的内存缓存服务器,通过高效缓存语言模型交互数据来减少token消耗,支持自动管理和配置优化。
基于Gemini的上下文管理与缓存MCP服务器,支持2M token大上下文窗口,提供会话管理和API缓存功能。
NCP是一个MCP协议智能编排器,将多个MCP服务器统一管理,通过语义理解自动路由工具调用,大幅减少AI工具的认知负担和token消耗,提升AI助手的工作效率和响应速度。
RLM MCP服务器是一个基于递归语言模型模式的大规模上下文处理工具,允许Claude代码通过外部变量处理超过1000万token的文本,避免直接将海量内容输入提示词。它通过加载、分块、子查询和聚合的流程,支持自动分析和程序化执行,可连接Claude API或本地Ollama进行免费推理。
基于Notion的Markdown导航MCP服务,实现无token访问与智能笔记管理
Token Minter MCP是一个支持21条区块链的ERC-20代币铸造服务,提供代币部署、转账、查询等工具集。
MCP BatchIt是一个MCP工具调用批处理服务器,通过聚合多个MCP工具调用到一个请求中,显著减少AI代理的通信开销和token消耗。
一个用于Claude Code的MCP服务器,通过结构化增量快照实现90%以上的上下文压缩,显著节省token使用量