谷歌DeepMind联合Kaggle升级Game Arena平台,新增“狼人杀”和“扑克”两款游戏,推动AI测试从逻辑运算转向社交推理与不确定决策,以更全面评估模型性能。
谷歌与Kaggle联合推出FACTS基准套件,旨在标准化评估AI模型的事实准确性。该基准针对法律、金融、医疗等对准确性要求高的行业,将“事实性”分为“上下文事实性”和“世界知识事实性”两个场景进行综合评估,填补了当前AI评估体系的空白。
谷歌FACTS团队与Kaggle联合发布FACTS基准测试套件,旨在评估生成式AI模型在企业任务中的事实性和真实性。该框架弥补了现有基准只关注问题解决能力、忽略输出信息与真实世界数据一致性的缺陷,尤其针对图像或图表中的信息嵌入,对法律、金融等关键领域尤为重要。
谷歌整合Colab与KaggleHub,推出数据探索器功能。用户可直接在Colab笔记本中搜索Kaggle的数据集、模型和竞赛,无需切换界面。通过左侧工具栏访问,并利用过滤器按类型或相关性筛选,旨在简化资源获取流程,提升使用便捷性。
世界领先的数据科学学习平台
nvidia
基于Qwen2.5-14B微调的数学推理模型,在AIMO-2 Kaggle竞赛中获得第一名
alexandreacff
该模型是基于asapp/sew-mid-100k在alexandreacff/kaggle-fake-detection数据集上微调的音频分类模型,用于虚假音频检测。
hilmansw
基于ResNet-18微调的猫狗图像分类模型,在Kaggle猫狗数据集上训练,准确率达99.29%
DunnBC22
基于Vision Transformer架构的天气图像分类模型,在Kaggle天气数据集上微调,准确率达93.4%
sismetanin
RuBERT-Toxic是基于DeepPavlov的rubert-base-cased模型在俄语有毒评论数据集上微调的文本分类模型,专门用于检测俄语文本中的有毒内容,在Kaggle俄语有毒评论数据集上取得了92.20%的F1分数。
该项目是一个基于FastMCP库构建的Kaggle MCP服务器,提供搜索和下载Kaggle数据集的功能,并能生成EDA笔记本提示。
Kaggle MCP服务器是一个通过Claude等AI助手与Kaggle竞赛交互的工具,提供竞赛列表、文件下载、结果提交等功能,支持Kaggle API认证和桌面集成。
Kaggle-MCP是一个连接Claude AI与Kaggle API的集成工具,通过MCP协议实现Kaggle平台功能的AI交互。
一个基于NodeJS的Kaggle MCP服务,用于探索数据集和创建笔记本