苹果在ICLR2025提交的视觉推理论文宣称超越GPT-5,但遭研究员复现揭露严重问题:官方代码缺失图片输入模块,修复后准确率暴跌;抽查发现30%标注数据存在错误。作者团队在GitHub草率关闭问题反馈后,最终承认数据生成流程存在缺陷。该事件暴露论文评审机制漏洞,引发学界对AI研究可复现性的担忧。(140字)
大华股份在同行拼参数时,将6B视觉模型塞进16GB显存边缘盒子,Q3净利增44%至10.6亿元。其2019年起用Transformer自洗数据、自标注,五年后"1+2"体系发展出V/M/L系列模型,实现高效边缘AI部署。
美团发布WOWService大模型交互系统白皮书,已在智能客服全量上线。采用"数据+知识双驱动"与四阶段训练体系,复杂场景下客服解决率提升9%,用户满意度提升12%,训练标注量仅为传统方案10%。核心框架包括:结构化业务规则与真实对话日志联合训练,知识点准确率达96%;多智能体协同机制,主Agent负责整体交互。
前MrBeast内容策略师Jay Neo推出AI短视频工具Palo,定价250美元/月,已获380万美元投资。面向10万粉以上创作者,提供三大功能:AI自动分析账号生成热门脚本;实时监测视频数据与情绪曲线;智能标注内容“掉粉点”。基于18亿播放案例经验,助力高效创作。
借助高亮标注界面训练AI,从各类文档中自动提取所需数据。
Labelbox提供软件和服务,帮助您构建、运营或配备数据工厂。
OpenTrain AI是一个全球自由职业者市场,将您现有的标注工具与全球经过审核的人工数据专家连接起来。
ModAstera提供用于医疗AI开发的平台,让您比竞争对手更快地进行创新。
Openai
-
Input tokens/M
Output tokens/M
Context Length
Anthropic
$105
$525
200
$21
Google
$0.7
$2.8
1k
Alibaba
$6
$24
256
$8
$240
52
Moonshot
$4
$16
Baidu
32
$8.75
$70
400
$1.75
$14
$0.35
Tencent
24
Xai
Huawei
128
shiviklabs
这是一个用于零样本分类任务的transformers模型,可在无需大量标注数据的情况下对文本进行分类。
unsloth
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
DiTy
该模型是基于google/gemma-2-9b-it针对函数调用任务进行微调的版本,训练数据完全由人工标注,使用了俄语版本的DiTy/function-calling数据集。
nkkbr
ViCA-7B是一款专为室内视频环境中的视觉空间推理而微调的视觉语言模型,基于LLaVA-Video-7B-Qwen2架构构建,使用ViCA-322K数据集进行训练,强调结构化空间标注和基于指令的复杂推理任务。
Skywork
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
poltextlab
这是一个基于xlm-roberta-large的多语言文本分类微调模型,在英语、德语、匈牙利语、西班牙语、斯洛伐克语训练数据上优化,使用比较议程项目的主要主题代码和7个额外媒体代码进行标注,准确率达到78.8%。
这是一个基于xlm-roberta-large微调的多语言文本分类模型,使用英语、德语、匈牙利语、西班牙语、斯洛伐克语训练数据,依据比较议程项目的主要主题代码进行标注,在学术研究领域表现出色。
Zhang199
TinyLLaVA-Video-R1 是一个视频文本到文本模型,通过使用来自NextQA数据集的16个手动标注样本对TinyLLaVA-Video进行冷启动训练获得。
FrenzyMath
Herald是一个自然语言标注的Lean 4数据集,主要用于自然语言处理和形式化验证领域的研究。
amphion
墨提斯是一个面向统一语音生成的基础模型,采用预训练与微调范式,通过掩码生成建模在大规模无标注语音数据上进行预训练,再通过微调适配多样化语音生成任务。
Srivardhan369
基于卷积神经网络(CNN)的脑肿瘤图像分类模型,使用标注过的脑部肿瘤MRI影像数据集训练
Laxhar
基于Laxhar/noobai-XL_v1.0开发的文生图扩散模型,支持v-prediction预测模式,融合Danbooru和e621数据集标注
syedkhalid076
基于DeBERTa-v3-base微调的零样本文本分类模型,适用于标注数据稀缺的场景或快速原型开发。
基于Illustrious-xl训练的文本到图像生成模型,使用最新Danbooru和e621数据集训练,带有原生标签标注
quadranttechnologies
针对零售产品图像视觉问答任务微调后的BLIP模型版本,基于在线零售平台的图像和产品描述标注的自定义数据集进行了微调。
基于Illustrious-xl训练的文本到图像生成模型,采用完整Danbooru和e621数据集训练,支持原生标签标注
facebook
Sapiens 是一个基于 3 亿张 1024 x 1024 分辨率人类图像预训练的视觉 Transformer 模型家族,支持 1K 高分辨率推理,在标注数据稀缺或完全合成的情况下仍能展现出对真实数据的卓越泛化能力。
soumickmj
PULASki是一种计算高效的生物医学图像分割生成工具,能够在小数据集中准确捕捉专家标注的变异性,特别适用于类别不平衡问题。
PULASki是一种计算高效的生物医学图像分割生成工具,能够准确捕捉专家标注的变异性,尤其适用于小数据集和类别不平衡问题。
PULASki是一种计算高效的生物医学图像分割生成工具,能够准确捕捉专家标注的变异性,特别适用于小数据集和类别不平衡问题。
这是一个基于Model Context Protocol的Label Studio集成服务器,通过label-studio-sdk实现与Label Studio实例的程序化交互,支持项目管理、任务管理和预测集成等功能。
一个用于管理Label Studio项目的MCP服务器,提供创建、管理标注项目及数据导入导出功能