苹果公司正加紧招聘推理模型领域专家,以解决其研究揭示的大型语言模型重大缺陷。招聘聚焦开发更准确高效的新型架构,重点强化推理、规划、工具使用和基于代理的LLM能力。
苹果公司将在2025年10月檀香山举办的国际计算机视觉大会(ICCV)上展示八篇论文,聚焦多模态模型和视频生成等前沿技术,分享其在计算机视觉领域的最新研究成果。
苹果公司拟收购计算机视觉初创公司Prompt AI的团队与技术,采用"人才与技术"收购方式,旨在快速增强AI能力。Prompt AI成立于2023年,团队仅11人,其产品Seemour可通过家庭摄像头识别人、宠物及物体,并用自然语言描述。
苹果公司正就收购计算机视觉初创企业Prompt AI进行最后阶段谈判,旨在获取其核心技术及人才。该公司2023年成立,同年完成500万美元种子轮融资,核心产品Seemour应用可与家庭安防摄像头联动,提供高精度识别分析功能。
calcuis
FastVLM-0.5B是苹果公司开发的高效视觉语言模型,参数量为5亿,通过GGUF格式优化,可在资源受限环境中实现快速的文本生成和视觉语言理解任务。
gguf-org
FastVLM是由苹果公司开发的轻量级视觉语言模型,参数量为5亿,支持文本生成和视觉语言理解任务。该模型提供了多种量化版本,可通过gguf-connector工具便捷运行。
apple
OpenELM是由苹果公司推出的高效语言模型系列,采用分层缩放策略优化参数分配,提供270M至3B不同规模的预训练及指令调优模型。
timm
AIM-v2是由苹果公司开发的图像编码器模型,基于timm库兼容的架构,适用于图像特征提取任务。
基于CLIP架构的视觉变换器模型,专注于图像特征提取,由苹果公司发布。
基于CLIP架构的ViT-Huge图像编码器,由苹果公司发布的DFN5B-CLIP模型,适用于视觉特征提取任务。
基于CLIP架构的视觉Transformer模型,由苹果公司发布的DFN2B-CLIP图像编码器权重
MobileCLIP-B (LT)是苹果公司推出的高效图文模型,通过多模态强化训练实现快速零样本图像分类,性能优于同类模型。