日联科技推出国内首个工业X射线AI图像增强系统UEX,基于自研视觉大模型与大规模数据集,解决了传统算法在成像质量、场景适应性和效率上的难题。该系统深度融合深度学习与X射线成像,通过神经网络实现去噪、去模糊等功能,为半导体、新能源等产业提供智能检测支持。
清华大学团队研发出AI药物筛选平台DrugCLIP,利用深度对比学习技术,实现基因组级别的高通量虚拟筛选。该成果已发表于《科学》杂志,有望大幅提升药物靶点探索效率,突破当前仅覆盖约10%可成药靶点的研发瓶颈。
阿里云发布多模态交互开发套件,深度融合通义千问三大基础模型,预置多场景AI Agent与MCP,为智能硬件提供“开箱即用”的AI能力,降低智能化门槛,赋能AI眼镜、学习机等终端设备。
Google推出Gemini平台的“引导式学习”功能,将学习过程转化为个性化、互动式体验。该工具通过逐步分解复杂主题、适应用户节奏并验证理解程度,帮助用户深度掌握知识,而非仅提供答案。它利用Gemini的多模态能力构建结构化学习路径,为用户提供类似私人导师的指导。
多模态信息检索与重排序模型,支持文本、图像、视频等输入。
先进的多模态嵌入和重排名模型,支持文本、图像和视频。
生成多镜头叙事视频的工具,具有高连贯性和视觉效果。
轻量级布局到图像生成框架,实现精准空间控制。
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$105
$525
200
Alibaba
$2
$20
Bytedance
$1.2
$3.6
4
$0.8
256
Moonshot
$4
$16
$0.15
$1.5
Tencent
$1
32
$8
$0.4
128
$8.75
$70
400
$0.63
$3.15
131
Chatglm
Deepseek
Iflytek
Mungert
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
Mitchins
这是一个基于EfficientNet-B0架构的深度学习模型,专门用于对动漫和视觉小说图像进行艺术风格分类。模型能够准确识别6种不同的动漫艺术风格,包括暗黑、扁平、现代、萌系、绘画风和复古风格。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
maomao0819
BEVANet是一个专为实时语义分割设计的深度学习模型,在Cityscapes等数据集上表现出色,在RTX3090上实现了81.0%的mIoU和32.8FPS的优异性能,平衡了精度与速度的需求。
通义深度研究30B是一款具有300亿参数的大语言模型,专为长周期、深度信息搜索任务设计。该模型在多个智能搜索基准测试中表现出色,采用创新的量化方法提升性能,支持智能预训练、监督微调与强化学习。
EpistemeAI
本模型基于GPT-OSS-20B,借助Unsloth强化学习框架进行微调,旨在优化推理效率,同时减少在从人类反馈中进行强化学习(RLHF)式训练期间出现的漏洞。微调过程着重于对齐的鲁棒性和效率,确保模型在不产生过多计算开销的情况下保持推理深度。
WeightedAI
波斯语OCR是一个专门针对波斯语文本设计的光学字符识别深度学习模型,采用CNN+变压器架构,在包含60万张合成波斯语文本图像的数据集上训练,序列准确率达到96%。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调即可在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在图像分类、分割、深度估计等多种任务中表现出色。
MTUCI
AASIST3是基于AASIST架构的增强版本,专门用于语音深度伪造检测。该模型融入了Kolmogorov-Arnold Networks (KAN),结合自监督学习特征和额外正则化技术,能有效提升语音深度伪造检测的性能和鲁棒性。
valentinocc
基于MobileNetV2架构的深度学习模型,专门用于识别和分类120种不同犬种。通过迁移学习技术微调,能够准确识别各类犬种并提供置信度评分。
Acly
BiRefNet是一个用于二分类图像分割的深度学习模型,专门用于背景去除任务。该模型经过GGUF格式转换,可在消费级硬件上通过vision.cpp进行轻量级推理,实现高效的图像分割处理。
minpeter
这是一个发布在Hugging Face Hub上的Transformers模型,具体信息需要从模型页面获取。该模型基于先进的深度学习架构,适用于各种自然语言处理任务。
EleutherAI
深度无知模型套件是一个包含18个69亿参数的大语言模型集合,旨在研究通过过滤预训练数据来防止模型学习不安全技术能力(如CBRN相关能力)的方法。该套件展示了过滤数据可以有效避免不良知识学习,同时保持通用性能并具备抗篡改能力。
SAP
SAP RPT 1 OSS是一个结合语义理解和上下文学习的深度学习模型,专门用于表格数据预测任务。该模型通过为不同数据模态采用专门的嵌入,并在大规模真实世界表格数据上进行训练,在广泛的基准测试中表现出色。
ConTextTab是一个深度学习模型,结合了语义理解和上下文学习,专门处理表格数据。它通过专门的嵌入方法处理不同数据模态,在大规模真实世界表格数据上训练,在多个基准测试中表现出色,特别是在语义丰富的CARTE基准测试中树立了新标准。
PaddlePaddle
SLANeXt_wired 是一个用于表格结构识别的深度学习模型,能够将不可编辑的表格图像转换为可编辑的表格格式(如 HTML)。
salihfurkaan
VoxPolska Auralis是一款先进的波兰语文本转语音(TTS)模型,采用前沿深度学习技术,能够精准捕捉波兰语的细微差别和语调,将书面文本转化为自然、流畅且富有表现力的语音。
Graphlet-AI
基于表示学习的深度模糊匹配系统,专为跨语言人名和公司名实体解析设计
honestlyanubhav
一个基于Unity ML-Agents训练的深度强化学习智能体,专门用于双人足球游戏场景。
nvidia
基于深度学习的数学问题自动求解系统,支持代数、几何、微积分等多种数学题型
基于Ultralytics和MCP协议实现的计算机视觉服务器,支持目标检测、图像分割和姿态估计等功能
一个轻量级服务器,通过简单API暴露Mac系统信息,帮助AI助手获取实时硬件和系统数据,主要用于Mac用户的AI和深度学习实验。
一个将PyTorch Lightning框架通过结构化API暴露给工具、代理和编排系统的MCP服务器,支持训练、检查、验证、测试、预测和模型检查点管理等功能。
MCP翻译服务器是一个专注于满汉双向翻译的高性能系统,集成了先进的形态分析和深度学习技术,提供全面的低资源语言翻译解决方案。
MCP Serve是一个强大的深度学习模型服务器工具,支持通过Shell执行、Ngrok连接或Docker容器部署,集成多种先进AI技术。
该项目是关于自动化医疗编码的研究,提供了在MIMIC-III和MIMIC-IV数据集上训练和评估医疗编码模型的代码,包括多种模型的实现和新数据集的划分。