SAP近日宣布收购成立仅18个月的德国初创公司Prior Labs,并计划未来四年投入约10亿欧元,打造专注于结构化数据的企业AI实验室。此举旨在弥补大语言模型在处理表格数据等企业核心业务流程中的短板,将AI应用从文本转向企业数据命脉。
SAP宣布收购德国AI初创公司Prior Labs,计划四年内投资10亿欧元建结构化数据AI实验室。交易需监管批准,金额未公开,但消息称几乎是全现金交易,创始团队将获超5亿美元现金。Prior Labs成立18个月,专注开发表格基础模型(TFMs),用于处理结构化数据。
OpenAI推出开源工具Euphony,旨在解决AI代理调试难题。AI代理涉及多步骤操作(如文件读取、API调用、代码编写),传统堆栈跟踪方法不适用。Euphony通过浏览器可视化,将结构化的Harmony聊天数据和Codex会话日志转化为直观的对话视图,帮助开发者更高效地分析和理解AI代理工作过程。
IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
通过简单API将社交媒体视频转化为结构化数据,含摘要、转录等。
用Parseium将网站转化为结构化数据,AI构建爬虫,API集成无代码
将您的网站AI可见性提升到新高度,Geordy自动化地将结构化内容传递至领先的AI平台,实现快速可靠的LLMO。
AutoForm是AI数据输入代理,通过将混乱的PDF、电子表格、网站等立即转换为干净、结构化数据,您可以下载、与之交互或用于自动填写任何表单。
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
-
Anthropic
$105
$525
$21
Google
$0.7
$2.8
1k
Alibaba
$6
$24
256
$8
$240
52
Moonshot
$4
$16
Bytedance
Baidu
32
Xai
$1.4
$10.5
$8.75
$70
400
$1.75
$14
$0.35
Tencent
24
Chatglm
128
$0.3
mudasir13cs
这是一个基于Google Gemma-3-4B-IT模型微调的文本生成模型,专门用于根据演示模板元数据生成多样化且相关的搜索查询。该模型使用LoRA适配器进行高效微调,是结构化文档字段自适应密集检索框架的关键组成部分。
Prior-Labs
TabPFN-2.5是基于Transformer架构的表格基础模型,利用上下文学习技术,能够在一次前向传播中解决表格预测问题,为结构化表格数据提供高效的回归和分类解决方案。
yanolja
YanoljaNEXT-Rosetta-27B-2511是基于Gemma3架构微调的270亿参数解码器语言模型,专门为结构化数据翻译设计,能在保留数据结构的同时实现多语言间的高效准确翻译。
briaai
FIBO是首个专为长结构化描述训练的开源文本到图像模型,为可控性、可预测性和特征解耦设定了新标准。该模型拥有80亿参数,仅使用有许可的数据进行训练,支持专业工作流程需求。
unsloth
Granite-4.0-H-Micro是IBM开发的30亿参数长上下文指令模型,基于Granite-4.0-H-Micro-Base微调而来。该模型结合了开源指令数据集和内部合成数据集,采用监督微调、强化学习对齐和模型合并等技术开发,具备结构化的聊天格式,在指令遵循和工具调用能力方面表现优异。
numind
NuExtract 2.0是NuMind公司专门为结构化信息提取任务训练的一系列多模态模型。该4B版本基于Qwen2.5-VL-3B-Instruct构建,支持文本和图像输入,具备多语言处理能力,能够从非结构化数据中提取结构化信息。
inference-net
Schematron-3B是由Inference.net推出的长上下文提取模型,专注于将嘈杂的HTML转换为符合自定义模式的干净、类型化的JSON。该模型针对网页抓取、数据摄取以及将任意页面转换为结构化记录进行了专门训练,为数据处理和分析提供了高效的解决方案。
Azzindani
这是一个专门针对印尼法律领域优化的语言模型,基于DeepSeek-R1-0528-Qwen3-8B使用GRPO方法在印尼法律问答数据集上微调而成,专注于提升法律推理和结构化思维能力。
winninghealth
WiNGPT-Babel-2 是一款专为多语言翻译任务优化的语言模型,支持55种语言的翻译,特别优化了中文翻译和结构化数据处理能力。
ds4sd
这是一个256M参数的预览版文档理解模型,专为文档结构解析和内容提取任务设计,支持将图像文档转换为结构化数据。
lakshyakh93
一款专为识别和分类非结构化文本数据中的个人身份信息(PII)而优化的微调模型。
nkkbr
ViCA-7B是一款专为室内视频环境中的视觉空间推理而微调的视觉语言模型,基于LLaVA-Video-7B-Qwen2架构构建,使用ViCA-322K数据集进行训练,强调结构化空间标注和基于指令的复杂推理任务。
Skywork
SkyCaptioner-V1是专为视频数据生成高质量结构化描述而设计的模型,通过整合专业子专家模型、多模态大语言模型与人工标注,解决了通用描述模型在专业影视细节捕捉上的局限。
prithivMLmods
基于Llama-3.2-3B-Instruct架构的强化推理模型,擅长数学分析、逻辑推理和结构化数据理解。
zackriya
一个专注于从图像中提取结构化数据(JSON)的视觉语言模型,特别擅长识别图表中的节点、边及其子属性,将视觉信息表示为知识图谱。
sam749
基于naver-clova-ix/donut-base在SROIE数据集上微调的文档信息提取模型,专门用于从收据和商业文档中提取结构化信息
vaishali
BnTQA-mBart 是一个基于 mBART 架构的低资源孟加拉语表格问答模型,专门用于处理孟加拉语的结构化表格数据问题回答任务。
ValiantLabs
Shining Valiant 2是基于Llama 3.1 8B构建的聊天模型,针对友好交流、深刻见解、知识储备和热情互动进行了微调。该模型在多种高质量开源数据上进行训练,专注于科学、工程、技术知识和结构化推理,能为用户提供专业且全面的回答。
SciPhi
Triplex是SciPhi.AI基于Phi3-3.8B微调的模型,专为从非结构化数据构建知识图谱设计,可将知识图谱创建成本降低98%。
nakamoto-yama
基于T5-base微调的模型,用于将职位描述转换为结构化的简历JSON数据
Playwright MCP是一个基于Playwright的浏览器自动化服务器,通过结构化数据而非像素输入实现LLM与网页的交互。
Hyperbrowser的MCP服务器提供网页抓取、结构化数据提取和浏览器代理工具。
MemoryMesh是一个为AI模型设计的知识图谱服务器,专注于文本RPG和互动叙事,帮助AI维护跨对话的结构化记忆。
DB MCP Server是一个支持多数据库的服务器,实现了模型上下文协议(MCP),为AI助手提供结构化访问数据库的能力。它支持MySQL和PostgreSQL,可同时连接多个数据库,自动生成专用工具,并遵循清晰架构设计。
DB MCP Server是一个实现模型上下文协议(MCP)的多数据库服务器,为AI助手提供结构化访问多种数据库的能力。
G-Search MCP是一个基于Playwright的Google并行搜索服务,支持多关键词同时搜索和结构化结果返回。
该项目实现了一个基于pyATS和Genie的MCP服务器,通过JSON-RPC 2.0协议提供结构化、模型驱动的网络设备交互能力,支持安全执行CLI命令、配置变更及数据采集,适用于容器化或LangGraph集成场景。
Nodit MCP Server是一个连接AI代理和开发者与多链结构化区块链数据的中间件,通过标准化的Model Context Protocol协议提供简化的Web3数据访问。
该项目通过Unstructured API构建了一个MCP服务器,用于处理研究论文数据,提取关键信息并转换为结构化JSON格式,帮助研究人员快速获取文献信息,减少文献综述时间。
LangExtract MCP Server是一个基于FastMCP的服务器,通过Google Gemini模型从非结构化文本中提取结构化信息,为Claude Code等AI助手提供文本信息提取能力,支持智能缓存和持久连接。
Blockscout MCP Server是一个基于Model Context Protocol(MCP)的开源服务,旨在为AI代理、IDE和自动化工具提供结构化的区块链数据访问。它封装了Blockscout API,支持多链查询,包括余额、代币、NFT和合约元数据等,并通过上下文感知的API使工具如Claude、Cursor等能够分析和利用这些数据。
一个用于从网页提取结构化内容的强大工具,支持自定义选择器和爬取选项
一个提供Hacker News内容获取服务的MCP服务器,支持多种故事类型查询并返回结构化数据。
Rug-Check-MCP是一个MCP服务器项目,用于检测Solana迷因币的潜在风险,帮助AI代理避免拉地毯骗局和不安全项目。它通过Solsniffer API获取代币数据,提供包括名称、符号、风险评分、市值、价格、供应量、风险详情和审计状态在内的结构化分析结果。
MediaCrawler MCP服务是将社交媒体爬虫升级为AI助手可直接调用的标准化工具,支持多平台数据获取,具有登录外部化、浏览器复用和结构化输出等特性
NotHumanAllowed是一个多智能体认知数据集生成引擎,通过38个专业AI代理进行多轮审议,产生可审计的推理轨迹和结构化知识记录,用于训练下一代AI系统。
Limitless MCP服务器是一个连接Limitless Pendant数据与AI工具的中间件,通过Model Context Protocol(MCP)标准实现结构化交互。
AnySite MCP服务器是一个基于模型上下文协议的多平台网络数据采集工具,支持LinkedIn、Instagram、Reddit、Twitter等平台,为AI代理提供实时、结构化的网络数据访问能力。
一个MCP协议服务器,用于从TypeScript/JavaScript源代码中提取嵌入式数据(如i18n翻译或键值配置)和SVG组件,生成结构化JSON配置文件和独立SVG文件。
markymark 是一个用于 Markdown 和结构化数据文件的语言服务器与 AI 代理工具,提供导航、重构、搜索和诊断功能,支持 LSP 和 MCP 协议。