字节跳动正与vivo、联想、传音等硬件厂商洽谈AI手机合作,计划通过预装AIGC插件(如“豆包手机助手”)抢占AI流量入口,改善大模型执行能力。vivo员工已证实合作,细节在商讨中。合作关键点是字节跳动提供了有吸引力的分成方案。
字节跳动在火山引擎大会上发布豆包大模型1.8和视频生成模型Seedance 1.5 Pro,并推出“AI节省计划”以降低企业成本。豆包大模型在推理、多语言等方面显著提升,Seedance则优化了视频生成质量与时长。
12月18日,火山引擎在FORCE原动力大会上宣布,豆包大模型日均Tokens使用量已突破50万亿,位居中国第一、全球第三。同时,公司正式发布了豆包大模型1.8与视频生成模型Seedance1.5pro。豆包1.8在多模态Agent场景中深度优化,视觉理解能力显著提升,支持超长视频分析,并在工具调用和复杂指令遵循方面达到全球领先水平。
火山引擎总裁谭待在FORCE原动力大会上公布,截至2025年12月,豆包大模型日均Tokens调用量突破50万亿,较2024年5月发布时增长417倍,下半年增速尤为显著。相比2024年12月,调用量同比激增超10倍。目前已有超100家企业通过火山引擎平台使用豆包大模型。
智能AI令牌管理和优化
一款通过向AI基金经理Lucy推销token来说服其投资的货币实验性游戏。
支持100万Token上下文的开源Qwen模型,适用于长序列处理任务
持续搜索和阅读网页,直到找到答案(或超出token预算)。
Openai
$2.8
输入tokens/百万
$11.2
输出tokens/百万
1k
上下文长度
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
Anthropic
$105
$525
200
$0.7
$7
$35
Alibaba
$4
$16
$2
$20
-
$6
$24
256
Bytedance
$0.8
$0.15
$1.5
Baidu
32
$10.5
$8
Tencent
$1
$0.75
$0.35
400
Ali-Yaser
本模型是基于meta-llama/Llama-3.3-70B-Instruct进行微调得到的版本,使用mlabonne/FineTome-100k数据集进行训练,包含100k token数据。模型采用Unsloth和Huggingface TRL库进行微调,支持英文语言处理。
inclusionAI
Ming-flash-omni 预览版是基于 Ling-Flash-2.0 稀疏专家混合(MoE)架构构建的多模态大模型,总参数达100B,每个token仅激活6B参数。该模型在Ming-Omni基础上进行了全面升级,在多模态理解和生成方面有显著提升,特别是在语音识别、图像生成和分割编辑方面表现突出。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
cpatonn
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
gabriellarson
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理和智能体交互能力。仅使用12T token训练,在多个公开基准测试中表现出色,支持高达512K的原生长上下文处理。
ByteDance-Seed
Seed-OSS是由字节跳动Seed团队开发的开源大语言模型系列,具备强大的长上下文处理、推理、智能体交互能力和通用性能。该模型仅使用12T token训练,在多个公开基准测试中表现出色。
NVFP4
Qwen3-30B-A3B-Thinking-2507是一款在推理能力和通用能力上有显著提升的大型语言模型,增强了长上下文理解能力,适用于高度复杂的推理任务。该模型具有305亿参数,其中激活33亿参数,支持262,144 tokens的长上下文处理。
QuantTrio
Qwen3-30B-A3B-Thinking-2507-AWQ是基于Qwen/Qwen3-30B-A3B-Thinking-2507基础模型进行量化的高效推理模型。该模型在推理任务、通用能力和长上下文理解方面有显著提升,专门针对高度复杂的推理任务进行了优化,支持262,144 tokens的长上下文处理。
Qwen3-30B-A3B-Thinking-2507是经过量化处理的大语言模型,具有增强的推理能力、通用能力和长上下文理解能力。该模型采用混合专家架构,在逻辑推理、数学、科学、编码等复杂任务上表现出色,支持262,144 tokens的长上下文处理。
nvidia
Llama-3.3-Nemotron-Super-49B-v1.5是基于Meta Llama-3.3-70B-Instruct的大语言模型,经过多阶段后训练增强了推理和非推理能力。支持128K token上下文长度,在准确性和效率之间取得了良好平衡,适用于推理、聊天和代理任务。
DavidAU
这是一个基于Qwen 3平台的编码/编程模型,具备完整的推理能力,速度极快。在中等硬件上每秒能处理超过150个token,仅使用CPU时每秒也能处理50个以上token。它是一个通用的编码模型,适用于生成代码块、构思编码思路以及快速生成代码草稿。
internlm
Intern-S1是目前最先进的开源多模态推理模型,结合了强大的通用任务处理能力和在广泛科学任务中的卓越性能,可与领先的闭源商业模型相媲美。该模型在5T token数据集上进行持续预训练,其中超过50%是专业科学数据,具备动态分词器能够原生理解分子式、蛋白质序列和地震信号。
FlameF0X
SnowflakeCore-G1-Tiny2是基于GPT风格的自定义Transformer语言模型,是SnowflakeCore-G1-Tiny的改进版本。该模型使用PyTorch从头构建,在common-pile/wikimedia_filtered数据集上训练,拥有约4亿参数,支持2048 token上下文窗口,专为文本生成任务设计。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
lmstudio-community
基于Transformer架构的文本生成模型,专注于软件工程任务,支持40k token的上下文长度。
百度ERNIE 4.5 0.3B是基于Transformer架构的双语文本生成模型,在通用语言理解和生成任务上表现优异,支持中英双语处理,上下文长度达128k token。
SynthLabsAI
ALP_DeepScaleR_1.5B_C16K是基于DeepScaleR-1.5B模型,采用自适应长度惩罚(ALP)方法进行训练的模型,能在保持性能的同时显著减少token使用量。
基于英伟达AceReason-Nemotron-7B的GGUF量化版本,专注于数学与代码推理,支持128k tokens长上下文
基于英伟达AceReason-Nemotron-14B的GGUF量化版本,专注于数学与代码推理任务,支持128k tokens长上下文
Llama-3.3-Nemotron-Super-49B-v1 是一个大型语言模型,基于 Meta Llama-3.3-70B-Instruct 改进,增强了推理能力、人类聊天偏好以及任务执行能力,支持 128K tokens 的上下文长度。
HiveChat是一个专为中小团队设计的AI聊天应用,支持多种大模型服务商,提供分组管理、Token限额、第三方登录等功能。
这是一个实现MCP代码执行模式的服务器,通过单工具桥接和零上下文发现机制,将MCP工具调用开销从数万token降至约200token,并在根容器中安全执行Python代码,支持数据科学和安全隔离。
MCP文本编辑器服务器是一个基于Model Context Protocol的文本文件编辑服务,提供行导向的文本文件操作能力,支持高效的部分文件访问以减少LLM工具的token消耗。具备并发编辑检测、多文件原子操作和多种编码支持等特性。
钉钉MCP服务是一个基于Model Control Protocol的钉钉API访问服务,提供获取token、部门及用户信息等功能。
godoc-mcp是一个高效的Go文档访问工具,通过MCP协议为LLM提供结构化、低token消耗的Go项目文档访问服务,支持本地和远程包文档查询。
MCP Chain of Draft Prompt Tool是一个增强LLM推理能力的工具,通过将标准提示转换为Chain of Draft或Chain of Thought格式,显著提高推理质量并减少token使用。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
一个MCP服务器项目,提供基于token数量自动选择OpenAI O3或Google Gemini 2.5 Pro模型的服务,支持文件路径递归嵌入提示词,适用于代码审查和复杂问题解决。
基于Gemini的上下文管理与缓存MCP服务器,支持2M token大上下文窗口,提供会话管理和API缓存功能。
一个基于MCP协议的内存缓存服务器,通过高效缓存语言模型交互数据来减少token消耗,支持自动管理和配置优化。
NCP是一个MCP协议智能编排器,将多个MCP服务器统一管理,通过语义理解自动路由工具调用,大幅减少AI工具的认知负担和token消耗,提升AI助手的工作效率和响应速度。
bonk-mcp服务器实现了Solana区块链功能,支持在LetsBonk平台上创建和交易代币。
基于Notion的Markdown导航MCP服务,实现无token访问与智能笔记管理
Token Minter MCP是一个支持21条区块链的ERC-20代币铸造服务,提供代币部署、转账、查询等工具集。
MCP BatchIt是一个MCP工具调用批处理服务器,通过聚合多个MCP工具调用到一个请求中,显著减少AI代理的通信开销和token消耗。
一个封装V2EX官方API 2.0的服务器,提供通知管理、用户信息、节点话题等接口功能,支持通过npm全局安装并配置token使用。
一个用于检查和撤销ERC-20代币授权的MCP服务器,增强安全性和控制力。
TokenScope是一个面向大型语言模型的令牌感知目录探索工具,提供智能目录结构分析、文件内容令牌感知提取、令牌使用统计和综合报告生成功能。
一个优化的Playwright MCP服务器,采用客户端-服务端架构实现浏览器自动化,通过创新的语义快照算法大幅减少页面内容传输量,保留关键元素的同时降低90%的token消耗。
这是一个增强版的MCP服务器内容搜索工具,支持正则表达式搜索、过滤控制,并优化了输出格式和token管理。