小巧强大!口袋级视觉AI模型moondream2:仅有16亿参数,手机就能运行
最近,西雅图的一家初创公司 Moondream 推出了名为 moondream2的紧凑型视觉语言模型。尽管体积小巧,但该模型在各项基准测试中表现出色,备受关注。作为一个开源模型,moondream2有望在智能手机上实现本地图像识别功能。moondream2于三月正式发布,该模型能够处理文本和图像输入,具备回答问题、文本提取(OCR)、物体计数和物品分类等能力。自发布以来,Moondream 团队持续更新该模型,不断提升其基准性能。7月份的版本在 OCR 和文档理解方面显示出显著进步,尤其是在对历史经济数据的分析