谷歌推出DS STAR多智能体框架,可将模糊商业问题自动转化为可执行Python代码,无需人工介入。该框架突破传统依赖结构化SQL数据库的限制,能直接处理CSV、JSON、Markdown及非结构化文本等混合格式数据。通过Aanalyzer等组件分阶段实现从问题分析到代码生成的全流程自动化。
芝加哥大学研究发现,市面AI文本检测工具性能差异显著。研究基于1992篇人类文本(含评论、新闻、小说等六类)及GPT-4等主流模型生成的AI文本进行测试,结果显示不同检测工具准确率存在明显差距,呼吁提升检测技术可靠性。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
xAI即将为iOS版Grok Imagine工具推出视频生成功能,用户可通过文本或图像提示创建高清动态视频,并支持从内容提要中直接重混提示以快速迭代创作。界面轻度优化提升操作流畅性,基于Aurora/Grok核心模型,支持一键高清升级,生成数秒短片,适用于广告和创意内容。重混机制降低输入门槛,简化创作流程。
insMind免费AI文本转视频生成器,在线根据文本提示创建精彩视频
AI写作助手,保留真实语气,提升清晰度与语法,可自由控制修改
AIAI是AI创作平台,可生成视频、图像、语音和文本内容。
强大的 AI 生成内容检测工具,适用于文本、图像、视频和音频。
mistral
-
Input tokens/M
Output tokens/M
128k
Context Length
meta
$1.22
$4.32
1M
openai
$18
$72
tencent
32k
google
$0.72
$2.88
$0.58
$2.16
10M
alibaba
$2.52
131.1k
$1.08
$216
$432
8.2k
reka-ai
azure
$0.36
noctrex
Aquif-3.5-Max-42B-A3B是一个420亿参数的大型语言模型,经过MXFP4_MOE量化处理,在保持高质量文本生成能力的同时优化了推理效率。该模型基于先进的混合专家架构,适用于多种自然语言处理任务。
kirankumarpetlu
这是一个基于Google Gemma-2B-IT基础模型,使用PEFT(参数高效微调)和LoRA技术进行优化的文本生成模型。该模型通过参数高效的方法在保持基础模型能力的同时,针对特定任务进行了优化。
Clemylia
梅尔塔是一款基于Discord机器人Melta27开发的独特小型语言模型,具有可爱、迷人和充满热情的个性特点,专门用于生成原创、独特且可爱的文本内容。
unsloth
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力以及出色的智能体交互能力。
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文处理、空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL-8B-Thinking是通义千问系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面全面升级。该模型提供密集架构和混合专家架构,支持从边缘设备到云端的灵活部署。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,实现了全方位的综合升级,包括卓越的文本理解与生成能力、更深入的视觉感知与推理能力、更长的上下文长度、增强的空间和视频动态理解能力,以及更强的智能体交互能力。
anikifoss
本项目是对MiniMax-M2模型进行的高质量HQ4_K量化,专门针对文本生成任务优化,特别适用于对话场景。该量化版本未使用imatrix,保持了模型的性能表现。
lmstudio-community
Qwen3-VL-2B-Thinking是由Qwen推出的视觉语言模型,基于2B参数规模,使用MLX进行8位量化,专门针对Apple Silicon芯片进行了优化。该模型支持图像和文本的多模态理解与生成任务。
Qwen3-VL是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。该版本为2B参数的思考增强版,专门优化了推理能力。
oberbics
本模型是基于Meta的Llama-3.1架构微调的文本生成模型,使用TRL库和GRPO(Group Relative Policy Optimization)方法进行强化学习训练,专门针对论证生成任务进行了优化。
Qwen
Qwen3-VL-30B-A3B-Instruct是通义系列中最强大的视觉语言模型,采用混合专家模型架构,具备出色的文本理解与生成能力、深入的视觉感知与推理能力,支持256K长上下文和视频理解,可在多种设备上进行推理。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备出色的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。本仓库提供GGUF格式权重,支持在CPU、GPU等设备上高效推理。
Qwen3-VL-32B-Instruct是通义系列中最强大的视觉语言模型,具备出色的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及智能体交互能力。
Qwen3-VL-8B-Instruct是通义系列中最强大的视觉语言模型,具备卓越的文本理解和生成能力、深入的视觉感知和推理能力、长上下文支持以及强大的空间和视频动态理解能力。
mlx-community
这是基于moonshotai/Kimi-Linear-48B-A3B-Instruct模型转换的4位量化版本,专为Apple MLX框架优化,提供高效的文本生成能力
Qwen3-VL-32B-Thinking是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是通义系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持、强大的空间和视频动态理解能力,以及出色的智能体交互能力。
Qwen3-VL是迄今为止Qwen系列中最强大的视觉语言模型,在文本理解与生成、视觉感知与推理、上下文长度、空间和视频动态理解以及智能体交互能力等方面都进行了全面升级。该模型采用混合专家(MoE)架构,提供卓越的多模态处理能力。
MiniMax Model Context Protocol (MCP) 是一个官方服务器,支持与强大的文本转语音、视频/图像生成API交互,适用于多种客户端工具如Claude Desktop、Cursor等。
基于即梦AI的图像生成服务,专为Cursor IDE设计,实现文本描述到图像的生成与保存。
开源短视频自动生成工具,整合文本转语音、自动字幕、背景视频和音乐,从简单文本输入创建专业短视频。
MiniMax官方模型上下文协议(MCP)服务器,支持文本转语音、视频/图像生成等API交互。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本角色扮演游戏和互动叙事。它通过动态模式定义和自动生成工具,帮助AI在对话中维护一致且结构化的记忆,实现更丰富、更动态的交互体验。
AI视频生成MCP服务器,支持文本和图像输入生成动态视频,提供多种参数控制和模型选择。
MIDI MCP服务器是一个通过文本数据生成MIDI音乐文件的工具
一个基于TypeScript的MCP服务器,集成Google Gemini Pro模型
该项目是一个基于Google Veo2模型的视频生成MCP服务器,支持通过文本提示或图像生成视频,并提供MCP资源访问功能。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的服务,支持多视角重建、AI图像生成、远程CUDA处理和工作流审批,最终输出OpenSCAD兼容的模型文件。
一个基于MCP协议的图像生成服务器,使用Replicate的flux-schnell模型,支持通过文本提示生成图像,并可配置多种参数。
MCPollinations是一个基于Model Context Protocol(MCP)的多模态AI服务,支持通过Pollinations API生成图像、文本和音频。它提供无需认证的轻量级服务,兼容多种AI模型,并支持图像保存和Base64编码返回。
一个基于MCP协议的模板服务器,集成了OpenAI、Anthropic和EnrichB2B的API功能。
基于MCP协议的Pollinations.ai服务接口服务器,提供图像和文本生成功能
MiniMax-MCP是一个多功能服务器项目,提供文本转语音、视频生成和图像生成等API服务,支持开发者集成高级多媒体功能。
OpenSCAD MCP服务器是一个通过文本或图像生成参数化3D模型的工具,支持多视角重建和远程处理。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
Scenario.com MCP服务器项目,提供基于文本生成图像和移除图像背景的API服务。
LMStudio-MCP是一个模型控制协议服务器,用于在Claude与本地运行的LM Studio LLM模型之间建立通信桥梁,实现模型健康检查、列表获取及文本生成功能。
一个基于MongoDB Atlas向量搜索和Voyage AI嵌入技术的文档检索系统,支持语义搜索和文本匹配,包含文档分块、嵌入生成和存储功能。