法国AI初创公司Mistral AI完成8.3亿美元债务融资,将用于在巴黎附近建设AI数据中心。该中心将部署44MW算力,配备13800块英伟达GB300 GPU,以支持AI应用发展。
欧洲AI公司Mistral AI完成8.3亿美元债务融资,将用于在巴黎近郊建设顶级AI数据中心。该中心计划部署超1.3万块英伟达GB300 GPU,以大幅提升算力。融资获七家国际银行支持,显示金融界对欧洲AI发展的信心。
英国GPU云计算初创公司Nscale完成20亿美元C轮融资,投后估值达146亿美元,或为欧洲史上最大单笔系列融资。公司成立于2024年,由澳大利亚比特币挖矿公司转型而来,迅速成为AI基础设施领域关键玩家,通过建设数据中心和运营云服务参与全球算力竞争。
英伟达最新财报显示,公司季度营收达680亿美元,同比增长73%,创下历史新高。其中数据中心业务贡献620亿美元,占比超九成,全年总营收达2150亿美元。公司首次细化披露数据中心收入构成,510亿美元来自以GPU为核心的计算业务。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Anthropic
$105
$525
200
$21
Google
$0.7
Alibaba
$6
$24
256
$8
$240
52
Moonshot
$4
$16
Bytedance
$0.8
$2
128
Baidu
32
$0.4
$8.75
$70
400
$1.75
$14
$0.35
64
$0.63
$3.15
131
Tencent
24
$1.8
$5.4
16
pnnbao-ump
VieNeu-TTS-1000h是一款先进的越南语端侧文本转语音模型,基于约1000小时高质量越南语语音数据训练,具备即时语音克隆功能,支持越南语与英语的无缝切换,能在CPU或GPU上实时合成24kHz波形。
RedHatAI
Llama-4-Maverick-17B-128E-Instruct-NVFP4是一个经过FP4量化处理的多语言大语言模型,基于Meta-Llama-3.1架构,专为商业和研究用途设计。该模型通过将权重和激活量化为FP4数据类型,显著减少了磁盘空间和GPU内存需求,同时保持较好的性能表现。
这是unsloth/Mistral-Small-3.2-24B-Instruct-2506的量化版本,通过将权重和激活函数量化为FP4数据类型,减少了磁盘大小和GPU内存需求,同时支持vLLM推理。在多个任务上进行了评估以与未量化模型对比质量。
这是Qwen3-235B-A22B-Instruct-2507模型的量化版本,通过将权重和激活量化为FP4数据类型,显著降低了磁盘大小和GPU内存需求,同时保持与原始模型相近的性能表现。
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
Qwen3-VL-235B-A22B-Instruct-FP8-dynamic 是 Qwen3-VL-235B-A22B-Instruct 的量化版本,通过将权重和激活量化为 FP8 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持了较高的模型性能。
nvidia
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
NVIDIA Qwen3-14B FP4 模型是阿里云 Qwen3-14B 模型的量化版本,采用优化的 Transformer 架构,是一个自回归语言模型。该模型使用 TensorRT Model Optimizer 进行量化,将权重和激活量化为 FP4 数据类型,可在 NVIDIA GPU 加速系统上实现高效推理。
Devstral-Small-2507-FP8-Dynamic是通过将Devstral-Small-2507的权重和激活量化为FP8数据类型而获得的优化模型,能够有效减少GPU内存和磁盘大小需求约50%,同时保持接近原始模型的性能表现。
DavidAU
基于OpenAI的gpt-oss-120b模型优化的大型语言模型,使用NEO数据集进行性能提升,支持多场景应用,可在CPU、GPU或部分卸载模式下运行,具有128k上下文长度和最多128个专家的混合专家架构。
Meta-Llama-3.3-70B-Instruct-NVFP4 是 Meta-Llama-3.3-70B-Instruct 的量化版本,通过将权重和激活量化为 FP4 数据类型,显著减少了磁盘大小和 GPU 内存需求,同时保持较高的性能表现。该模型支持多语言,适用于商业和研究用途。
RedHatAI开发的SmolLM3-3B模型的FP8量化版本,通过将权重和激活值量化为FP8数据类型,显著减少GPU内存需求和磁盘空间占用,同时提升计算吞吐量。
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek R1 0528 模型的量化版本,采用优化的 Transformer 架构,权重和激活值量化为 FP4 数据类型,显著减少磁盘大小和 GPU 内存需求,支持 TensorRT-LLM 推理引擎实现高效推理。
经过量化处理的DeepSeek-R1-0528模型,通过将权重量化为INT4数据类型,显著降低了GPU内存和磁盘空间的需求。
speakleash
该模型是Bielik-4.5B-v3.0-Instruct的FP8量化版本,通过AutoFP8技术将权重和激活量化为FP8数据类型,减少约50%的磁盘空间和GPU内存需求。
Qwen3-14B-FP8-dynamic 是一个经过优化的大语言模型,通过将激活值和权重量化为 FP8 数据类型,有效降低了 GPU 内存需求,提高了计算吞吐量。
arshiaafshani
Arsh LLM是为科研设计的开源大语言模型,基于olmo混合数据集在T4 GPU上完成预训练,总耗时约4-5天。
tngtech
基于OLMo-2-0325-32B-Instruct模型,使用Open R1数学数据集在AMD MI300X GPU上微调,专注提升数学推理能力
这是DeepSeek-R1-Distill-Qwen-1.5B的量化版本,通过将权重和激活量化为INT8数据类型,有效减少了GPU内存需求和磁盘空间占用,同时提升了计算吞吐量。该模型由Neural Magic开发,基于Qwen2ForCausalLM架构。
该项目集成Graphistry的GPU加速图可视化平台与模型控制协议(MCP),为AI助手和大型语言模型提供先进的图分析能力,支持多种数据格式和网络分析功能。