人工智能公司 Clipto.AI 完成 Pre-A++ 轮融资,估值超2.5亿美元。本轮由 EnvisionX Capital 和 Palm Drive Capital 领投,红杉中国、高瓴创投等老股东跟投,资金将重点投入端侧多模态 AI 模型与系统的研发。
英伟达发布大模型微调指南,降低技术门槛,让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造,优化训练全流程,提升性能。
Jan团队发布300亿参数多模态大模型Jan-v2-VL-Max,专为长周期、高稳定性自动化任务设计,性能超越谷歌Gemini2.5Pro与DeepSeek R1。该模型重点解决多步任务中的“误差累积”和“失焦”问题,为开源智能体生态提供强大支持。
2025年AI医疗迎来爆发增长。海外平台OpenEvidence正融资2.5亿美元,估值达120亿美元;国内蚂蚁集团也推出健康AI升级产品,显示行业前景广阔。
Wan 2.5驱动的AI视频生成平台,可文本转视频,高效专业
Nano Banana 2连接Gemini 2.5 Flash,支持文本到图像及图像编辑并带水印输出。
用WAN 2.5和Veo 3.1无缝AI视频扩展,时长3 - 10s,画质专业
基于Gemini 2.5的图像编辑器,免费使用,自然语言指令实现快速编辑
Google
$0.49
输入tokens/百万
$2.1
输出tokens/百万
1k
上下文长度
$0.7
$2.8
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
-
$2
$20
Bytedance
$1.2
$3.6
4
$0.8
128
Baidu
Openai
$0.4
64
$0.63
$3.15
131
Chatglm
TeichAI
本模型是基于Qwen3-4B架构的知识蒸馏模型,通过约5440万个由Gemini 2.5 Flash生成的标记进行训练,旨在整合Gemini-2.5 Flash的行为、推理过程和知识到单一数据集中。
ModernVBERT
ColModernVBERT是ModernVBERT的后期交互版本,专门针对视觉文档检索任务进行了微调,是该任务上性能最佳的模型。它是一个参数为2.5亿的紧凑型视觉-语言编码器,在视觉文档基准测试中达到了近乎参数大10倍模型的性能,同时在CPU上具有可观的推理速度。
tensorblock
这是基于Google Gemma-3-4b模型针对提格雷语优化的GGUF格式版本,专门为提格雷语文本生成任务设计,在提格雷语新闻语料库上取得了2.5的困惑度表现。
John6666
KiraDepth 是一个基于稳定扩散XL的文本到图像生成模型,专注于生成具有深度、细节和阴影的2.25D/2.5D风格图像,特别适合动漫风格的创作。
unsloth
InternVL3-14B是一个先进的多模态大语言模型,在InternVL 2.5基础上显著提升了多模态感知和推理能力,并拓展了工具使用、GUI代理、工业图像分析、3D视觉感知等领域的应用。
lmstudio-community
AM Thinking v1是由A-M团队开发的基于Qwen 2.5-32B-Base的大语言模型,增强推理能力,支持132k tokens的上下文长度。
maldv
Qwentile Λ 2.5 32B指导模型是基于多个优秀模型进行标准化去噪傅里叶插值融合的成果,融合了思维能力和创造性输出。
a-m-team
专注于增强推理能力的320亿参数稠密语言模型,基于Qwen 2.5‑32B‑Base构建,在推理基准测试中展现出与更大规模MoE模型相媲美的性能。
SWE-bench
基于SWE-smith工具包训练的软件工程专用语言模型,采用Qwen 2.5 Coder Instruct微调而成
declare-lab
Nora是一个开源的视觉-语言-动作模型,基于Qwen 2.5 VL - 3B训练,能够根据语言指令和相机图像生成机器人动作。
Mungert
OpenHands LM是一款基于Qwen Coder 2.5 Instruct 32B构建的开源编码模型,通过特殊微调在软件工程任务中表现出色。
HyperX-Sen
基于Qwen 2.5(7B)打造的双语(英语和印地英语)文本生成模型
prithivMLmods
Viper-Coder-v1.7-Vsm6是基于千问2.5 14B模态架构设计的大语言模型,专注于提升编码效率和计算推理能力,优化内存使用并减少冗余文本生成。
基于千问2.5 14B模态架构设计的增强推理模型,优化通用推理与问答场景,支持128K上下文和8K输出
Nu2-Lupi-Qwen-14B是基于Qwen 2.5 14B架构设计的数学推理优化模型,擅长复杂问题求解和逻辑推导。
OddTheGreat
基于Qwen 2.5架构的多模型融合系统,专为角色扮演场景优化,支持英语和俄语,具备出色的创造力和指令跟随能力
NAMAA-Space
Adasah是基于Qwen 2.5 3B模型的微调版本,专为阿拉伯语视觉理解场景优化,支持阿拉伯语视觉问答与图片内容理解。
OpenGVLab
InternVL3-78B是OpenGVLab推出的先进多模态大语言模型,展现卓越的综合性能。相比前代InternVL 2.5,具备更强大的多模态感知与推理能力,并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。
基于Qwen 2.5 14B架构构建的新一代语言模型,专为数学推理、编程和通用逻辑任务优化。
nvidia
Eagle 2.5是一款前沿的视觉语言模型(VLM),专为长上下文多模态学习设计,支持处理长达512帧的视频序列和高分辨率图像。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
Gemini UI设计服务器是一个基于MCP协议的企业级UI/UX设计和前端实现专家系统,通过集成Google Gemini 2.5 PRO提供专业的UI组件设计、代码审查、前端代码生成和架构咨询服务
一个MCP服务器项目,提供基于token数量自动选择OpenAI O3或Google Gemini 2.5 Pro模型的服务,支持文件路径递归嵌入提示词,适用于代码审查和复杂问题解决。
一个与AI代码编辑器集成的MCP服务器,通过Gemini 2.5的百万token上下文窗口和任务管理功能,优化Cursor的代理能力。
该项目展示了如何利用Google的Gemini 2.5 Pro模型通过函数调用功能与MCP协议下的航班搜索工具交互,实现自然语言查询航班信息并返回格式化结果。
一个MCP服务器,允许Claude Code在需要深入分析复杂问题时咨询更强大的AI模型(如o3、Gemini 2.5 Pro、DeepSeek Reasoner)。
Gemini Nanobanana MCP 是一个让用户通过文本描述生成AI图像的Claude插件,集成了Google Gemini 2.5 Flash图像生成功能,支持多种图像编辑和创作方式。
Gemini MCP服务器实现,支持Claude Desktop与Google Gemini 2.5 Pro实验模型的交互
基于Google Gemini 2.5 Flash Image API的MCP服务器,提供文本生成图像、图像编辑、多图合成和风格转换等功能,支持多种MCP客户端使用。
一个简单高效的LLDB MCP服务器,支持自动化输出捕获,依赖少且功能完整,专为o4-mini和Gemini 2.5 Pro优化设计。