谷歌AI推全面基准测试CardBench:具有20多个真实数据库和数千个查询
现代关系数据库中,基数估计(CE)技术对于优化查询执行计划至关重要,直接影响到查询效率和数据库性能。传统的基数估计方法基于简化假设,常在复杂查询预测上表现不佳,而学习型CE模型能提供更准确预测,但面临训练时间长、需大量数据和缺乏系统评估的问题。为解决这一挑战,Google研究团队推出了CardBench基准测试框架,集成了超过20个真实世界数据库和数千个查询,支持三种主要设置:基于实例的模型、零样本模型和微调模型。CardBench不仅提供数据统计计算工具、SQL查询生成和注释查询图创建功能,还包含训练数据集,用于评估不同学习型CE模型性能。通过CardBench,微调模型在性能评估中展现出色,即使在少量训练数据下也能达到与传统方法相当的准确性,这为实际应用提供了可能,推动了学习型基数估计领域的进步。