Meta因士气低迷与裁员风波,撤回强制工程师加入AI训练组的要求,改由员工自主选择。此前公司调动七千人参与AI专项,却被批评工作类似流水线数据标注、缺乏挑战,引发强烈不满,政策转变旨在缓解内部矛盾。
腾讯混元大模型联合故宫博物院等机构推出“Chronicles-OCR”,这是业界首个覆盖汉字“七体之变”演化轨迹的古文字感知评测基准。数据集由专家多层交叉标注,包含2800张图像,旨在测试AI对甲骨文等古文字的识别能力,推动人工智能理解汉字从龟甲刻痕到现代代码的完整演变。
Linux内核近日接收了首个明确标注为AI生成的驱动程序补丁prom21-xhci,用于为AMD Promontory 21芯片组的xHCI控制器提供温度传感器数据。这标志着AI生成代码从实验阶段进入系统底层核心组件实用化,填补了相关领域空白,引发广泛关注。
谷歌开源医疗AI模型MedGemma1.5,核心突破在于能处理高维度医疗数据。它原生支持CT和MRI三维扫描,可直接分析立体影像;支持病理学数字切片微观分析;在胸部X光分析中能精准标注。该模型在多个关键医疗场景实现显著跨越。
借助高亮标注界面训练AI,从各类文档中自动提取所需数据。
Labelbox提供软件和服务,帮助您构建、运营或配备数据工厂。
OpenTrain AI是一个全球自由职业者市场,将您现有的标注工具与全球经过审核的人工数据专家连接起来。
ModAstera提供用于医疗AI开发的平台,让您比竞争对手更快地进行创新。
Openai
-
输入tokens/百万
输出tokens/百万
上下文长度
Anthropic
$105
$525
200
$21
Google
$0.7
$2.8
1k
Alibaba
$6
$24
256
$8
$240
52
Moonshot
$4
$16
Baidu
32
$8.75
$70
400
$1.75
$14
$0.35
Tencent
24
Xai
Huawei
128
shiviklabs
这是一个用于零样本分类任务的transformers模型,可在无需大量标注数据的情况下对文本进行分类。
unsloth
Whisper是一个预训练的自动语音识别(ASR)和语音翻译模型,通过68万小时标注数据训练,具有强大的泛化能力。
DiTy
该模型是基于google/gemma-2-9b-it针对函数调用任务进行微调的版本,训练数据完全由人工标注,使用了俄语版本的DiTy/function-calling数据集。
nkkbr
ViCA-7B是一款专为室内视频环境中的视觉空间推理而微调的视觉语言模型,基于LLaVA-Video-7B-Qwen2架构构建,使用ViCA-322K数据集进行训练,强调结构化空间标注和基于指令的复杂推理任务。
Skywork
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
poltextlab
这是一个基于xlm-roberta-large的多语言文本分类微调模型,在英语、德语、匈牙利语、西班牙语、斯洛伐克语训练数据上优化,使用比较议程项目的主要主题代码和7个额外媒体代码进行标注,准确率达到78.8%。
这是一个基于xlm-roberta-large微调的多语言文本分类模型,使用英语、德语、匈牙利语、西班牙语、斯洛伐克语训练数据,依据比较议程项目的主要主题代码进行标注,在学术研究领域表现出色。
Zhang199
TinyLLaVA-Video-R1 是一个视频文本到文本模型,通过使用来自NextQA数据集的16个手动标注样本对TinyLLaVA-Video进行冷启动训练获得。
FrenzyMath
Herald是一个自然语言标注的Lean 4数据集,主要用于自然语言处理和形式化验证领域的研究。
amphion
墨提斯是一个面向统一语音生成的基础模型,采用预训练与微调范式,通过掩码生成建模在大规模无标注语音数据上进行预训练,再通过微调适配多样化语音生成任务。
Srivardhan369
基于卷积神经网络(CNN)的脑肿瘤图像分类模型,使用标注过的脑部肿瘤MRI影像数据集训练
Laxhar
基于Laxhar/noobai-XL_v1.0开发的文生图扩散模型,支持v-prediction预测模式,融合Danbooru和e621数据集标注
syedkhalid076
基于DeBERTa-v3-base微调的零样本文本分类模型,适用于标注数据稀缺的场景或快速原型开发。
基于Illustrious-xl训练的文本到图像生成模型,使用最新Danbooru和e621数据集训练,带有原生标签标注
quadranttechnologies
针对零售产品图像视觉问答任务微调后的BLIP模型版本,基于在线零售平台的图像和产品描述标注的自定义数据集进行了微调。
基于Illustrious-xl训练的文本到图像生成模型,采用完整Danbooru和e621数据集训练,支持原生标签标注
facebook
Sapiens 是一个基于 3 亿张 1024 x 1024 分辨率人类图像预训练的视觉 Transformer 模型家族,支持 1K 高分辨率推理,在标注数据稀缺或完全合成的情况下仍能展现出对真实数据的卓越泛化能力。
soumickmj
PULASki是一种计算高效的生物医学图像分割生成工具,能够在小数据集中准确捕捉专家标注的变异性,特别适用于类别不平衡问题。
PULASki是一种计算高效的生物医学图像分割生成工具,能够准确捕捉专家标注的变异性,尤其适用于小数据集和类别不平衡问题。
PULASki是一种计算高效的生物医学图像分割生成工具,能够准确捕捉专家标注的变异性,特别适用于小数据集和类别不平衡问题。
这是一个基于Model Context Protocol的Label Studio集成服务器,通过label-studio-sdk实现与Label Studio实例的程序化交互,支持项目管理、任务管理和预测集成等功能。
一个用于管理Label Studio项目的MCP服务器,提供创建、管理标注项目及数据导入导出功能