IBM英伟达联手推DocLang：重塑AI文档解析标准

文章来源：企鹅号 - ZAKER科技

当网站内容正被重新设计以适配AI模型的消费习惯时，一股新的力量正试图将这一趋势延伸至数字文档领域。

在Linux基金会的领导下，LF AI & Data Foundation近日成立了一个全新工作组，旨在指导DocLang的开发。这是一种专为AI友好的文档格式，意在帮助企业更高效地将文件数据“喂”给AI系统。

打破PDF的解析困境

由IBM、英伟达（NVIDIA）、红帽（Red Hat）、ABBYY、HumanSignal和Forgis联合创立的DocLang工作组指出，现有的PDF、Markdown、HTML和LaTeX等格式并不适合AI文档解析。

“文档是为人类构建的，而非为机器设计。”ABBYY AI战略副总裁Maxime Vermeir表示。现有格式多为渲染而生，当AI模型将其转换为标记（tokens）时，往往会丢失语义信息、结构关系或几何上下文。Markdown表达能力不足，HTML过于冗长，而LaTeX则存在过多歧义。

这一问题在企业级应用中尤为突出。ABBYY AI价值与赋能负责人Jon Knisley指出，每次PDF进入AI管道，其结构、含义和布局都会受损，导致模型准确性受限于文档质量而非模型本身。团队不得不为每种新文档类型构建自定义解析器，这不仅造成了脆弱的一次性工程，还带来了高昂的维护成本。

原生支持AI的标准化方案

2024年底，IBM推出了开源工具包Docling，用于促进AI文档解析，这与微软的MarkItDown或Marker项目类似。DocLang在此基础上进一步扩展，制定了在不同系统间交换结构化输出的标准。

DocLang的核心在于其针对大型语言模型（LLM）分词器的优化。该规范依赖于与LLM分词器对齐的限制性XML词汇表，通过标记将DocLang元素与LLM标记进行1对1映射。这种无损转换确保了AI在处理过程中不会丢失有价值信息，同时原生支持表格、公式、图表等多模态内容。

除了技术层面的优化，DocLang还强调了治理优势。在传统文档流转中，溯源数据和元数据常被剥离，而DocLang将这些信息保留在文档结构中，为企业AI应用提供了更确定的基础。

成本可降低30倍以上

效率与成本是企业采纳新技术的关键驱动力。根据AI Cost Check的数据，让AI模型对PDF进行OCR扫描作为基线，大约需要1,200个输入标记和150个输出标记。对于大规模应用而言，这是一笔不可忽视的开支。

ABBYY创建的交互式基准测试展示了DocLang的潜力。以IBM 2025年年度报告为例，其PDF版本会产生8,421个输入标记和512个输出标记，延迟为4.2秒；而DocLang版本仅需5,310个输入标记和498个输出标记，延迟降至2.7秒。更重要的是，DocLang版本在质量上表现更佳，避免了PDF版本中出现的子部分遗漏和表格合并错误。

“模糊的结构迫使模型进行猜测，这不仅增加了幻觉风险，还消耗了大量标记来解读布局。”Knisley解释道。初步基准测试显示，根据评估模型的不同，使用DocLang可将成本降低4倍到30倍以上。

尽管前景乐观，但工作组保持谨慎。“目前还为时过早，我们不会夸大采用率。”Knisley表示，该标准是开放且免费构建的，工作组正积极邀请更多技术提供商和企业加入，早期的市场反响令人鼓舞。

【星途科讯图文丨慕容雪】

发表于: 1天前2026-06-16 13:03:14
原文链接：https://page.om.qq.com/page/OHSgsoAzyomnG_dSfHzMdvog0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

IBM英伟达联手推DocLang：重塑AI文档解析标准

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐