Mistral AI推出Voxtral系列模型,整合文本与音频处理能力。该系列包括Voxtral-Mini-3B-2507和Voxtral-Small-24B-2507两款。前者为3亿参数模型,适合快速音频转录和基础多模态理解;后者拥有240亿参数,支持复杂音频文本智能和多语言处理,适用于企业级应用。两款模型均支持30至40分钟音频上下文处理。
ElevenLabs的AI语音智能体深度集成WhatsApp,支持文字与语音双模交互。用户可通过文字聊天或直接拨打WhatsApp语音电话,与拥有逼真人声的AI助理实时对话。企业可便捷部署具备多语言、情感识别、实时翻译等能力的AI语音助手,重构客服体验。
千问APP上线全新学习大模型Qwen3-Learning,具备拍照识别、跨文化多语言解题能力,融合多国考试体系与真题。其作业批改功能覆盖小学到高中全学科,支持印刷体与手写体,提供智能作业总结,提升学习体验。
Reverie公司发布新款语音转文本模型,支持印地语、英语及Hinglish混合语言,适应印度多语言环境。该模型已处理300万次API调用,在银行和呼叫中心等行业应用中展现出高精确度和快速响应能力。
Aya Vision 是 Cohere 推出的多语言多模态视觉模型,旨在提升多语言场景下的视觉和文本理解能力。
多语言大型语音生成模型,提供全栈推理、训练和部署能力。
Falcon 2 是一款开源、多语言、多模态的模型,具备图像到文本转换能力。
AI眼镜,赋予你视觉分析与实时翻译的超能力
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
$8
$240
52
Bytedance
$1.2
$3.6
4
RinggAI
这是一个专为通话记录分析打造的混合语言AI模型,能够处理印地语、英语和混合印地英语的通话转录内容。模型基于Qwen2.5-1.5B-Instruct进行微调,具备强大的多语言理解和信息提取能力。
Guilherme34
Qwen3-32B是Qwen系列最新一代的大语言模型,具备强大的推理、指令遵循、智能体交互和多语言处理能力。它支持100多种语言和方言,能在思维模式和非思维模式间无缝切换,为用户提供自然流畅的对话体验。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
mradermacher
Lamapi/next-12b 是一个基于12B参数的大语言模型,通过多语言数据集进行微调,支持50多种语言,具备高效文本生成能力,适用于化学、代码、生物、金融、法律等多个领域的自然语言处理任务。
Lamapi
Next 12B是基于Gemma 3的120亿参数多模态视觉语言模型,是土耳其最先进的开源视觉语言模型。该模型在文本和图像理解方面表现出色,具备先进的推理和上下文感知多模态输出能力,特别提供专业级的土耳其语支持,同时具备广泛的多语言能力。
aisingapore
Qwen-SEA-LION-v4-32B-IT是基于Qwen3-32B构建的东南亚语言大语言模型,专门针对东南亚地区进行了预训练和指令微调。该模型在包含7种东南亚语言的SEA-Pile v2语料库上继续预训练,并在800万对高质量问答数据上进行指令微调,具备强大的多语言理解和推理能力。
Qwen2.5-14B-Instruct是基于Qwen2.5架构的多语言大语言模型,拥有140亿参数,支持13种语言,具备优秀的指令跟随和对话能力。该模型在多种语言任务上表现优异,适用于多语言场景的文本生成和理解。
ibm-granite
Granite-4.0-H-350M是IBM开发的轻量级指令模型,基于Granite-4.0-H-350M-Base微调而成。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习和模型合并等多种技术开发,具备强大的指令跟随能力和多语言支持。
unsloth
Granite-4.0-Micro是IBM开发的具有30亿参数的长上下文指令模型,基于Granite-4.0-Micro-Base微调而来。该模型使用了开源指令数据集和内部合成数据集,具备增强的指令遵循和工具调用能力,支持多语言任务,可作为各领域AI助手的基础模型。
lmstudio-community
KAT-Dev是由Kwaipilot开发的多语言自然语言处理模型,支持多种语言交互任务,提供高效准确的语言处理能力。该版本经过MLX团队8位量化优化,专门针对苹果硅芯片进行了性能优化。
numind
NuExtract 2.0是由NuMind开发的专门用于结构化信息提取的多模态模型,支持文本和图像输入,具备多语言处理能力,能够根据JSON模板从输入内容中提取结构化信息。
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
prithivMLmods
Leporis-Qwen3-Radiation-1.7B是一个专注于推理的模型,基于Qwen进行微调,用于精确推理和优化标记概率。该模型增强了跨数学和通用推理的多语言平衡生成能力,专长于事件驱动逻辑、结构化分析和精确的概率建模。
Granite-4.0-H-Micro是IBM开发的30亿参数长上下文指令模型,基于Granite-4.0-H-Micro-Base微调而来。该模型结合了开源指令数据集和内部合成数据集训练,具备多语言支持和增强的工具调用能力,在企业应用中表现出色。
cpatonn
NVIDIA Nemotron Nano 12B v2是由NVIDIA从头训练的大型语言模型,专为推理和非推理任务设计。采用混合Mamba2-Transformer架构,支持多语言,具备可控推理能力,可根据用户需求生成推理过程或直接给出答案。
NVIDIA-Nemotron-Nano-9B-v2是NVIDIA全新训练的大语言模型,专为推理和非推理任务设计的统一模型。它采用Mamba2-Transformer混合架构,支持多语言,具备可控的推理能力,用户可通过系统提示控制模型的推理过程显示。模型在多项基准测试中表现优异,已可商用。
OpenGVLab
InternVL3_5-38B是开源多模态模型InternVL3.5系列中的一员,在多功能性、推理能力和推理效率方面取得了显著进展。它支持多语言,可应用于图像文本到文本的任务,采用级联强化学习框架和视觉分辨率路由器技术优化性能。
sugoitoolkit
Sugoi LLM 32B Ultra是基于Qwen2.5-32B-Instruct优化的高性能大语言模型,充分释放了前作Sugoi 32B模型的全部潜力。该模型采用GGUF格式,专注于翻译任务,具有出色的多语言处理能力。
nightmedia
Qwen3-42B-A3B-2507是基于Qwen3架构的42B参数大语言模型,在代码生成和文本生成任务上表现出色,支持多语言处理,具有增强的推理能力。该版本经过特殊优化,在多项基准测试中相比前代版本有性能提升。
nvidia
NVIDIA Nemotron Nano 12B v2 是由 NVIDIA 从零开始训练的大语言模型,专为推理和非推理任务设计。该模型采用混合架构,结合 Mamba-2 和注意力层,支持多语言处理,并可通过系统提示控制推理能力。
FastApply MCP Server是一个企业级代码智能平台,通过本地AI模型、AST语义搜索、安全扫描和智能模式识别,提供全面的代码分析、搜索和重构能力,支持多语言开发和大规模代码库处理。
Code Graph RAG MCP是一个先进的模型上下文协议服务器,通过智能图表示和多语言代码分析能力,提供13种专业工具进行代码理解、关系映射和语义搜索。
Markdownify MCP UTF-8增强版是一个支持多语言内容转换的Markdown处理服务,优化了UTF-8编码支持,提供PDF/图片/音视频/Office文档等多种格式的Markdown转换能力,并针对Windows系统进行了特别优化。
MCP-Serve是一个基于MCP协议的多语言翻译服务,提供文本翻译和资源管理功能,支持与AI模型交互扩展能力。