Adobe发布Photoshop和Lightroom重大更新,将生成式AI扩展至3D空间处理。核心亮点是“旋转对象”工具,允许用户在3D空间中实时旋转、倾斜或翻转2D素材,自动调整透视角度和环境视觉逻辑,显著提升合成创作效率与效果。
国家安全部发布AI术语“词元”(Token)安全警示,指出其日均调用量超140万亿,需警惕数据泄露与金融诈骗风险。作为AI信息最小单元,词元兼具可计量、可定价、可交易特征,已成为智能时代“结算单位”。截至2026年3月,我国词元调用量较2024年初增长超千倍,应用场景从文本生成不断扩展。
字节跳动旗下视频编辑应用CapCut正式推出Dreamina Seedance2.0模型,已在移动、桌面及网页端同步上线。该模型率先在印尼、菲律宾、泰国、越南、马来西亚、巴西和墨西哥推出,未来将扩展至更多地区。Dreamina Seedance2.0旨在通过CapCut解锁视觉叙事新可能,支持在单一流畅工作流中实现行业领先的视频生成与编辑,其核心亮点包括最高级别的长视频生成能力。
ElevenLabs于2026年3月推出AI音乐交易市场,用户可利用其AI音乐模型创作并销售曲目,将语音克隆的成功商业模式扩展至音频领域。创作者上传原创AI歌曲后,可通过下载、混音或授权获得收益。此前,其语音市场已向创作者支付超1100万美元,音乐模型已生成近1400万首歌曲。
AI音乐生成器,可秒将文本或歌词转为歌曲,支持生成、扩展和翻唱
FLORA整合顶尖AI工具,提供可扩展生成式工作流加速创意产出。
通过 EvoLink 集成,生成 10 - 15 秒音画同步写实视频,扩展 AI 视频生产规模
AI音乐生成器,数分钟内创作、扩展并发布原创歌曲
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
Baidu
128
$6
$24
256
Bytedance
$1.2
$3.6
4
$2
DavidAU
这是一个增强版的多模态视觉语言模型,基于Qwen3-VL-8B-Thinking模型,通过Brainstorm 20x技术扩展至12B参数,采用NEO Imatrix增强的GGUF量化。模型具备强大的图像理解、文本生成和多模态推理能力,在视觉感知、文本质量和创意场景方面都有显著提升。
noctrex
本项目是对Qwen3-Coder-30B-A3B-Instruct模型进行MXFP4_MOE量化的成果,将上下文大小从256k扩展到1M,为代码生成和编程任务提供了更优化的模型版本,具有提升性能和节省资源的价值。
unsloth
ERNIE-4.5-300B-A47B 是一款文本 MoE 后训练模型,拥有 3000 亿的总参数,每个标记有 470 亿的激活参数。该模型具备多模态异构 MoE 预训练、高效扩展基础设施和特定模态后训练等先进技术,能在文本理解与生成、图像理解及跨模态推理等任务中表现出色。
DeSTA-ntu
DeSTA2.5-Audio是一个通用的大型音频语言模型,通过自生成的跨模态对齐技术,在无需特定任务指令调优数据的情况下实现高扩展性和效率,同时保留语言能力并避免灾难性遗忘。
CypressYang
SongBloom是一个创新的全长歌曲生成框架,采用自回归草图绘制和基于扩散的细化交错范式,结合了扩散模型的高保真度和语言模型的可扩展性,能够生成高质量的全长歌曲。
prithivMLmods
DeepSeek-R1-Llama-8B-F32-GGUF 是 DeepSeek-R1-Distill-Llama-8B 的量化版本,采用强化学习直接训练,具备自我验证、反思和生成扩展思维链等能力。
trentmkelly
用于检测Reddit评论中AI生成内容的二分类文本分类模型,支持浏览器扩展实时检测。
shakamone
TRELLIS是一个基于图像条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D生成。
larsquaedvlieg
TRELLIS是一个基于文本条件的大型3D生成模型,采用结构化3D潜变量实现可扩展与多功能的3D内容生成。
TRELLIS是一个大型3D生成模型,通过结构化3D潜变量实现可扩展与多功能的3D内容生成。
Llasa是一个基于LLaMA的文本转语音(TTS)系统,通过整合语音标记扩展了语言模型的能力,支持中英文语音生成。
OctoThinker
OctoThinker是基于Llama-3家族模型构建的强化学习友好型基础语言模型,专注于训练中期激励强化学习扩展研究。该3B参数规模的模型在自然语言处理领域具有重要应用价值,特别适合文本生成任务。
slprl
该模型是基于Llama-3.2-3B微调的语音语言模型,专注于分析交错语音-文本SLM的扩展性,支持语音和文本的生成任务。
基于Qwen2.5-7B扩展的语音语言模型,支持语音-文本交错训练和跨模态生成
microsoft
TRELLIS Text Large 是一个大型文本到3D生成模型,基于结构化3D潜在空间实现可扩展和多样化的3D内容生成。
junnei
Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型,新增语音处理能力,可处理文本、图像和音频输入,生成文本输出。
Efficient-Large-Model
SANA-1.5是一个基于线性扩散Transformer的可扩展文生图模型,支持1024像素分辨率图像生成,具有高效训练与推理缩放技术。
tencent
混元视频-I2V是一个全新的图像转视频生成框架,基于腾讯混元视频模型扩展,支持从静态图像生成高质量视频内容。
GenerTeam
GENERator是一个具有9.8万碱基对上下文长度和30亿参数的生成式基因组基础模型,基于真核生物DNA扩展数据集训练
motexture
基于条件增强的文本生成视频模型,通过时序条件变换器扩展生成片段并实现平滑过渡,支持提示词插值功能
Aderyn是一个开源的Solidity智能合约静态分析工具,由Rust编写,帮助开发者和安全研究人员发现Solidity代码中的漏洞。它支持Foundry和Hardhat项目,可生成多种格式报告,并提供VSCode扩展。
pg-aiguide是一个AI优化的PostgreSQL知识库,为AI编程助手提供语义搜索官方文档、最佳实践技能和扩展生态文档,帮助生成更高质量的PostgreSQL代码。
Notebook Intelligence (NBI) 是一个为JupyterLab设计的AI编码助手和可扩展AI框架,支持GitHub Copilot及其他LLM提供商的模型,包括本地Ollama模型。它通过代码生成、自动补全和聊天界面等功能显著提升生产力,并支持Model Context Protocol (MCP) 服务集成。
Speech MCP是为Goose设计的语音交互扩展,提供实时语音识别、高质量文本转语音、多语言支持和现代化音频可视化界面,支持多角色对话生成和音频转录功能。
一个基于MCP平台的本地代理服务器和客户端实现,集成天气查询、谷歌搜索、摄像头控制、图片生成和智能对话等多种AI工具功能,支持模块化扩展和高性能并发处理。
一个基于OpenAI GPT-4o/gpt-image-1模型的图像生成与编辑工具,支持通过文本提示生成图像、编辑图像(如修复、扩展、合成等),并兼容多种MCP客户端。
Modal MCP工具箱是一个运行在Modal平台上的工具集合,基于模型上下文协议(MCP),可为LLM提供扩展功能,如Python沙箱代码执行和FLUX模型图像生成。
Claude MCP是一个增强Claude代码生成能力的服务器工具系统,通过提供最新文档和API访问,确保生成的代码遵循最新最佳实践。系统支持本地或共享部署,包含文档抓取等工具,并可通过模块化扩展功能。
ServiceBricks是一个开源的微服务平台,集成了人工智能功能,支持通过自然语言生成生产级微服务,并采用领域驱动设计和事件驱动架构,提供可扩展、可定制且存储无关的分布式系统开发解决方案。
Workers MCP Server是一个概念验证项目,通过Cloudflare Worker实现Model Context Protocol (MCP)服务器,使Claude Desktop等MCP客户端能够调用Cloudflare Worker的RPC功能来扩展其能力。项目提供了文档生成、本地代理和远程调用等功能,支持开发者快速构建和部署MCP服务。
rag-mcp是一个过度设计的检索增强生成系统,通过Python服务器提供多种文本搜索模式(语义搜索、问答搜索、风格搜索),使用PostgreSQL和pgvector存储文本嵌入向量,支持与AI代理交互,架构复杂但可扩展。
本地多专家智能体调度系统,支持自动生成专家、工具调用和知识库扩展,用于毕业设计项目。
Model Context Protocol (MCP) 是一个开源协议,提供了一系列参考实现和社区开发的服务器,旨在为大型语言模型(LLM)提供安全、可控的工具和数据源访问。这些服务器展示了MCP的多样性和可扩展性,涵盖了从文件系统操作到数据库集成、从网络搜索到AI图像生成等多种功能。
这是一个用于管理Claude桌面应用和Cursor IDE功能扩展配置的工具,支持多种功能如Brave搜索、Git操作、Obsidian笔记等,通过Makefile自动生成配置文件并安装到指定目录。
一个基于fal.ai API的MCP服务器,用于生成图像和视频,支持扩展不同模型和API端点。
Runbook AI MCP服务器是一个通过Chrome扩展提供浏览器自动化能力的工具,允许终端AI代理与实时浏览器会话交互,其核心特点是生成高度简化的HTML以优化上下文使用,并完全在本地运行保障隐私。
一个基于MCP平台的本地代理服务器和客户端实现,集成天气查询、谷歌搜索、摄像头控制、AI图片生成和智能对话等多种AI工具调用能力,支持跨平台运行和模块化扩展。
MCP-SynClub-Generate-Comic是一个专为漫画创作设计的Claude桌面扩展,集成了从剧本生成、角色图像生成、故事板创建到最终漫画图像生成的全流程工作流。
该项目展示了一个结合模型上下文协议(MCP)和检索增强生成(RAG)的轻量级多智能体AI系统,用于商业分析。系统通过协调多个专用工具服务器,提供自然语言查询的商业数据统计分析和知识检索功能,具有模块化设计便于扩展和LLM后端切换。
Luma AI MCP服务器是一个基于Model Context Protocol的服务,集成了Luma AI的Dream Machine API(v1),提供AI生成视频/图像的工具集,包括文本/图像转视频、视频扩展、音频添加、画质提升等功能,支持通过Claude Desktop直接调用。