字节跳动与南洋理工大学联合推出开源框架StoryMem,通过创新的“视觉记忆”机制,将单镜头视频扩散模型升级为多镜头长视频生成工具,能自动生成超过1分钟、镜头切换自然、角色场景连贯的叙事视频,推动开源AI视频技术向电影级叙事迈进。
VideoPipe是一款开源视频分析框架,专注于计算机视觉AI算法的快速集成与落地。其核心创新在于采用可组合的管线设计,将复杂任务模块化,帮助开发者简化底层编码,聚焦业务逻辑,提升开发效率。
英伟达发布大模型微调指南,降低技术门槛,让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造,优化训练全流程,提升性能。
小红书开源可控图像生成框架InstanceAssemble,专为高密度、多对象、复杂空间关系的图像生成任务设计。该框架通过级联建模与Assemble-Attention机制,在仅增加极低参数的情况下,显著提升生成图像的空间对齐精度与语义一致性,为电商、设计等场景提供工业级解决方案。
开源AI框架,几步快速构建部署AI应用,功能丰富潜力大。
主流对话式 Voice Agent开源框架,让 AI 能听能说
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
开源的深度研究工具,旨在通过开源框架复现类似Deep Research的功能
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
PrimeIntellect
INTELLECT-3是一个拥有1060亿参数的混合专家(MoE)模型,通过大规模强化学习训练而成。在数学、编码和推理基准测试中展现出卓越性能,模型、训练框架和环境均以宽松许可协议开源。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
OpenGVLab
InternVL3_5-38B是开源多模态模型InternVL3.5系列中的一员,在多功能性、推理能力和推理效率方面取得了显著进展。它支持多语言,可应用于图像文本到文本的任务,采用级联强化学习框架和视觉分辨率路由器技术优化性能。
InternVL3.5-4B是开源多模态模型系列中的中等规模版本,在通用性、推理能力和推理效率上取得显著进展,支持GUI交互等新能力。该模型采用级联强化学习框架和视觉分辨率路由器技术,实现了高效的多模态理解与推理。
InternVL3.5-4B是开源多模态模型系列的中等规模版本,包含4.7亿参数,采用先进的级联强化学习框架和视觉分辨率路由器技术,显著提升了多模态推理能力和效率。
dnakov
Seed-OSS-36B-Instruct是字节跳动开发的文本生成模型,基于36B参数规模的大语言模型架构,专门针对指令跟随任务进行优化。该模型支持中英文双语,采用Apache-2.0开源许可证,可通过vllm和mlx推理框架进行高效部署。
Seed-OSS-36B-Instruct是由字节跳动开发的360亿参数大型语言模型,基于MLX框架优化,专注于文本生成任务。该模型支持中英文双语,采用Apache-2.0开源许可证,具备强大的指令跟随和内容生成能力。
mrfakename
OpenF5 TTS 是一款基于F5-TTS框架训练的开源文本转语音模型,支持零样本语音克隆功能,采用Apache 2.0许可协议,可商业使用。
TheFinAI
FinSeer StockLLM 是一个开源的10亿参数大语言模型,专为金融时间序列预测设计,采用检索增强生成(RAG)框架。
codewithdark
DiffusionLLM是基于扩散模型的文本生成项目,使用wikitext-103-v1数据集训练,专注于高质量文本生成任务。该项目采用transformers库和PyTorch框架,通过BLEU指标评估性能,遵循MIT开源许可证。
Skywork
天工卷轴V1是首个开源的、以人物为核心的高级视频基础模型,基于混元视频框架,通过对千万级高质量影视片段进行微调,具备面部动态捕捉和电影级光影美学等核心优势。
X-iZhang
LLaVA-Med是一个专为生物医学应用优化的开源大型视觉语言模型,基于LLaVA框架,通过课程学习增强,并针对开放式生物医学问答任务进行了微调。
AI4Chem
ChemLLM是首个开源的化学与分子科学大语言模型,基于InternLM-2框架打造,专注于化学与分子科学领域。
yam-peleg
基于Mistral-7B-v1.0框架的70亿参数开源大语言模型,支持希伯来语和英语预训练
TransQuest
TransQuest是一个开源的翻译质量评估框架,支持句子级和词汇级的质量评估,性能超越当前最优方法。
TransQuest是一个开源的翻译质量评估框架,无需参考译文即可评估翻译质量,支持句子级和词汇级评估。
TransQuest是一个用于翻译质量评估的开源框架,支持句子级和词汇级评估,在WMT 2020质量评估任务中表现优异。
TransQuest是一个用于翻译质量评估的开源框架,在WMT 2020句子级直接评估质量评估共享任务中获胜。
taeminlee
KoGPT2是基于Huggingface Transformers框架的韩语生成预训练模型,由SKT-AI开发并开源。
TransQuest是一个开源翻译质量评估框架,支持在无需参考译文的情况下评估翻译质量,适用于多种语言对。
Genkit是一个用于构建AI驱动应用的开源框架,提供Node.js和Go库,支持多种AI模型和向量数据库集成,包含开发工具和插件生态系统。
Cipher是一个专为编程AI代理设计的开源记忆层框架,通过MCP协议与各种IDE和AI编码助手集成,提供自动记忆生成、团队记忆共享和双系统记忆管理等核心功能。
Opik是一个开源的LLM评估框架,支持追踪、评估和监控LLM应用,帮助开发者构建更高效、更经济的LLM系统。
Serena是一个强大的开源编码代理工具包,能够将LLM转化为可直接在代码库上工作的全功能代理。它提供类似IDE的语义代码检索和编辑工具,支持多种编程语言,并可通过MCP协议或Agno框架与多种LLM集成。
Notte是一个开源的全栈网络AI代理框架,提供浏览器会话、自动化LLM驱动的代理、网页观察与操作、凭证管理等功能,旨在将互联网转化为代理友好的环境,并通过自然语言描述网站结构,降低LLM的认知负担。
MCPAdapt是一个开源项目,旨在将650多个MCP服务器的工具无缝集成到各种代理框架中,使开发者能够轻松地在自己的代理工作流中使用这些工具。
Open Data MCP是一个开源项目,旨在通过MCP协议将公开数据集快速接入LLM应用。项目提供CLI工具实现2分钟接入(当前支持Claude),并建立社区协作框架让开发者能轻松贡献和发布公开数据集。核心目标是构建连接所有LLM应用与数百万公开数据集的基础设施。
LOTUS-MCP是一个开源的模型协调协议,整合Mistral和Gemini两大AI模型,提供统一接口、上下文共享和工具集成,实现智能路由和成本优化。
MCP是一个标准化LLM交互的开源协议,提供统一框架连接数据源、获取上下文、使用工具和执行标准提示。项目示例展示了如何构建MCP服务器和客户端,实现知识库聊天机器人功能。
DeRisk是一个AI原生的风险智能管理系统,提供7*24小时全面深入的应用系统风险防护,基于开源社区协作开发的模块化框架,专注于风险与数据领域的能力衍生。
Digimon Engine是一个开源的多智能体、多玩家游戏框架,专注于AI原生游戏和智能元宇宙开发。它支持社交和金融AI代理,提供沉浸式游戏体验,并致力于构建类似《西部世界》的AI代理环境。
MUXI.ai是一个开源的多AI代理系统框架,提供持久化记忆、标准化通信协议和思维链追踪功能,支持多种接口集成,旨在为开发者构建高级AI应用提供模块化、可扩展的平台。
Vibe Marketing MCP是一个开源营销内容生成服务器,集成了最佳社交媒体钩子、文案框架和KOL原型,帮助AI客户端生成更人性化、平台优化的营销内容。
Model Context Protocol (MCP) 是Anthropic发布的开源协议,旨在解决大型语言模型(LLM)与外部数据源和系统连接的标准化问题。它通过提供结构化框架,使模型能够集成和利用外部上下文,从而扩展其能力并提高响应准确性。MCP支持知识扩展、外部工具调用和预写提示等功能。
AutoGPT是一个开源AI代理框架,旨在让每个人都能轻松构建和使用AI代理。项目提供Forge工具链简化开发流程,包含基准测试、用户界面和CLI工具,支持通过Agent Protocol标准实现兼容性,并设有竞技场排行榜激励开发者优化代理性能。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,用于为大型语言模型(LLM)提供安全、受控的工具和数据源访问。该项目包含多种功能服务器,如文件系统操作、Git集成、数据库访问等,并支持通过TypeScript和Python SDK快速开发新服务。
AnyPixel.js是一个开源软硬件库,用于创建大型、非传统、交互式显示装置。它提供完整的硬件设计、固件、后端和前端框架,支持开发者构建基于网页的交互式像素显示系统。
AutoGPT是一个开源的AI代理工具包,提供模块化和可扩展的框架,支持用户构建、测试和监控AI代理。项目包含Forge创新实验室、Benchmark测试环境和用户友好的前端界面,采用Agent Protocol标准化通信。社区活跃,定期举办黑客马拉松等活动推动创新。
MCP是一个开源的AI驱动渗透测试框架,通过集成多种安全工具并实时分析输出,严格遵循标准渗透测试流程,为安全测试人员提供智能辅助。
这是一个包含多个开源AI项目的列表,涵盖了从自动化代理、大语言模型、图像生成到AI开发框架等多个领域。这些项目旨在帮助开发者利用AI技术赚钱,包括构建智能助手、自动化工作流、内容生成等应用。