微软OmniParser开源项目跃居HuggingFace最受欢迎模型榜首
微软近期推出的屏幕内容解析工具OmniParser,本周跃居人工科技开源平台HuggingFace最受欢迎模型榜首。据HuggingFace联合创始人兼首席执行官Clem Delangue表示,这是该领域首个获此殊荣的解析工具。OmniParser主要用于将屏幕截图转化为结构化数据,帮助其他系统更好地理解和处理图形用户界面。该工具采用多模型协同工作方式:YOLOv8负责检测可交互元素位置,BLIP-2分析元素用途,同时配备光学字符识别模块提取文本信息,最终实现对界面的全面解析。这一开源工具具有广泛的兼容性,可支持多种主