Lightricks公司推出AI视频生成模型LTX-2,能一次性生成20秒4K高清叙事视频,实现音画同步和口型匹配。该模型突破传统无声视频限制,在同一扩散过程中同步生成画面与声音,显著提升视频创作效率。
OpenAI的Sora视频生成应用上线一个月后,因用户激增和算力成本压力,宣布缩减免费额度,同时推出付费套餐和创作者分成计划,标志着视频生成技术进入商业化深水区。
谷歌推出StreetReaderAI原型系统,帮助盲人和低视力用户通过自然语言交互自主探索谷歌街景。该系统融合计算机视觉、地理信息系统和大语言模型,实现多模态AI驱动的实时对话式街景体验,突破传统语音播报局限,提升无障碍城市探索自由度。
谷歌为Chrome浏览器新增AI功能,在最新测试版中推出由Gemini驱动的“Nano Banana”图像生成工具和“深度搜索”主题研究功能。用户可直接在搜索框内创作图像或进行信息检索,无需切换页面即可快速启动任务。
LTX-2 是代多模态 AI 视频生成模型。
AI邮件营销工具,可创建邮件、自动化流程、添加互动性以提升转化率
AI驱动的在线评论、反馈和声誉管理工具,一站式收集与分析
在线免费将文本、图片转化为视频,快速创建高质量AI视频
deepseek
$3.6
输入tokens/百万
$15.48
输出tokens/百万
128k
上下文长度
google
$2.16
$18
1M
anthropic
$108
$540
200k
chatglm
$0.43
$1.01
131.1k
minimax
-
moonshotai
$4.1
$16.56
xai
$21.6
mistral
upstage
64k
2M
reka-ai
65.5k
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一个基于Qwen2.5-3B Instruct架构微调的AI助手,采用1,103个精灵角色的定制示例进行训练,具备独特的语音和忠诚度模式,能够为用户提供别具一格的对话体验。
pnnbao-ump
VieNeu-TTS是首个可在个人设备上运行的越南语文本转语音模型,具备即时语音克隆能力。基于NeuTTS Air微调,能够生成自然逼真的越南语语音,在CPU上具备实时性能。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
nineninesix
KaniTTS是一款专为实时对话式AI应用优化的高速、高保真文本转语音模型,通过独特的两阶段架构结合大语言模型与高效音频编解码器,实现低延迟与高质量语音合成,实时因子低至0.2,比实时速度快5倍。
dx8152
文心图像融合Lora模型是一个专门用于图像融合和编辑的AI模型,能够纠正产品透视角度、调整光影效果,并使产品自然地融入背景环境,实现高质量的图像合成效果。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。
aisingapore
Qwen-SEA-LION-v4-32B-IT是基于Qwen3-32B构建的东南亚语言大语言模型,专门针对东南亚地区进行了预训练和指令微调。该模型在包含7种东南亚语言的SEA-Pile v2语料库上继续预训练,并在800万对高质量问答数据上进行指令微调,具备强大的多语言理解和推理能力。
citizenplain
这是一个基于Wan2.1-T2V-14B模型训练的LoRA适配器,专门用于文本到视频转换任务。该模型使用AI Toolkit训练,为视频生成应用提供支持。
lichorosario
这是一个基于Qwen-Image模型训练的LoRA(Low-Rank Adaptation)模型,专门用于文本到图像的生成任务。该项目使用AI Toolkit训练,能够将文本描述转化为高质量的图像,支持在多种图像生成工具中使用。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基于OpenAI gpt-oss-120b模型的优化版本,采用混合专家(MoE)架构,具备1200亿总参数和50亿激活参数。该模型支持商业和非商业使用,适用于文本生成任务,特别适合AI Agent系统、聊天机器人等应用开发。
hyperchainsad
这是一个基于Wan2.2-T2V-A14B基础模型训练的文本到视频LoRA模型,使用AI Toolkit工具包进行训练,专门用于增强文本到视频的转换能力。
Zlikwid
这是一个基于Qwen/Qwen-Image-Edit-2509基础模型训练的LoRA图像生成模型,专门用于图像到图像的转换任务,使用AI Toolkit by Ostris进行训练。
expert78
kontext-dusk-3-lora是一个基于FLUX.1-Kontext-dev基础模型训练的LoRA图像生成模型,专门用于生成黄昏蓝调时刻风格的图像。该模型通过特定触发词触发,支持多种主流AI图像生成工具使用。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
synap5e
这是一个基于AI Toolkit by Ostris训练的文本到视频LoRA模型,使用Wan2.2-T2V-A14B作为基础模型,支持文本到视频的转换任务,为相关领域的应用提供了强大的支持。
zambawi
joywan-lora是基于AI Toolkit by Ostris训练的LoRA模型,专门用于文本到视频和图像生成任务,需要配合基础模型Wan-AI/Wan2.1-T2V-14B-Diffusers使用。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
Klavis AI是一个开源项目,提供在Slack、Discord和Web平台上简单易用的MCP(模型上下文协议)服务,包括报告生成、YouTube工具、文档转换等多种功能,支持非技术用户和开发者使用AI工作流。
Sail是一个旨在统一流处理、批处理和计算密集型(AI)工作负载的项目,提供了Spark SQL和Spark DataFrame API的替代方案,支持单机和分布式环境。
Zen MCP是一个多模型AI协作开发服务器,为Claude和Gemini CLI等AI编码助手提供增强的工作流工具和跨模型上下文管理。它支持多种AI模型的无缝协作,实现代码审查、调试、重构等开发任务,并能保持对话上下文在不同工作流间的延续。
Exa MCP Server是一个为AI助手(如Claude)提供网络搜索功能的服务器,通过Exa AI搜索API实现实时、安全的网络信息获取。
Deebo是一个AI调试助手,能够加速代码错误的解决过程,通过自动化调查和多线程工作流提升开发效率。
Nx Console是一个为Nx和Lerna monorepo项目提供的可视化界面工具,增强编辑器AI功能,提供项目和工作流管理。
Scrapling是一个自适应网页抓取库,能自动学习网站变化并重新定位元素,支持多种抓取方式和AI集成,提供高性能解析和开发者友好体验。
BrowserTools MCP是一个强大的浏览器监控与交互工具,通过Chrome扩展和本地服务器实现AI对浏览器的智能分析与操作。
解决Pylance未解析导入警告的文档
MCP Unity是一个实现Model Context Protocol的Unity编辑器扩展,通过Node.js服务器桥接AI助手与Unity项目的交互,提供菜单执行、对象选择、组件更新等功能。
AWS MCP Servers是一套基于Model Context Protocol的专用服务器,提供多种AWS相关功能,包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等,旨在通过标准化协议增强AI应用与AWS服务的集成。
MCP Unity是一个实现Model Context Protocol的Unity编辑器扩展,允许AI助手与Unity项目交互,提供Unity与Node.js服务器之间的桥梁。
AbletonMCP是一个连接Ableton Live和Claude AI的集成工具,通过Model Context Protocol(MCP)实现双向通信,让AI可以直接控制和操作Ableton Live进行音乐创作和制作。
Eino是一个专为Golang设计的LLM应用开发框架,旨在通过简洁、可扩展、可靠且高效的组件抽象和编排能力,简化AI应用开发流程。它提供丰富的组件库、强大的图形编排功能、完整的流处理支持以及高度可扩展的切面机制,覆盖从开发到部署的全周期工具链。
Desktop Commander MCP是一个让Claude桌面应用能够执行终端命令、管理文件系统的AI助手工具,支持代码搜索、编辑、进程管理和远程文件读取等功能。
UnityMCP是一个Unity编辑器插件,实现模型上下文协议(MCP),提供Unity与AI助手的无缝集成,包括实时状态监控、远程命令执行和日志功能。
Genkit是一个用于构建AI驱动应用的开源框架,提供Node.js和Go库,支持多种AI模型和向量数据库集成,包含开发工具和插件生态系统。
Solana Agent Kit是一个开源工具包,用于将AI代理连接到Solana协议,支持60多种区块链操作。
Refact Agent 是一个开源AI编程助手,支持多语言代码生成、调试和优化,集成主流开发工具,可本地化部署并提供智能补全和代码解释功能。
Cipher是一个专为编程AI代理设计的开源记忆层框架,通过MCP协议与各种IDE和AI编码助手集成,提供自动记忆生成、团队记忆共享和双系统记忆管理等核心功能。