首页
学习
活动
专区
圈层
工具
发布

IBM英伟达联手推DocLang:重塑AI文档解析标准

当网站内容正被重新设计以适配AI模型的消费习惯时,一股新的力量正试图将这一趋势延伸至数字文档领域。

在Linux基金会的领导下,LF AI & Data Foundation近日成立了一个全新工作组,旨在指导DocLang的开发。这是一种专为AI友好的文档格式,意在帮助企业更高效地将文件数据“喂”给AI系统。

打破PDF的解析困境

由IBM、英伟达(NVIDIA)、红帽(Red Hat)、ABBYY、HumanSignal和Forgis联合创立的DocLang工作组指出,现有的PDF、Markdown、HTML和LaTeX等格式并不适合AI文档解析。

“文档是为人类构建的,而非为机器设计。”ABBYY AI战略副总裁Maxime Vermeir表示。现有格式多为渲染而生,当AI模型将其转换为标记(tokens)时,往往会丢失语义信息、结构关系或几何上下文。Markdown表达能力不足,HTML过于冗长,而LaTeX则存在过多歧义。

这一问题在企业级应用中尤为突出。ABBYY AI价值与赋能负责人Jon Knisley指出,每次PDF进入AI管道,其结构、含义和布局都会受损,导致模型准确性受限于文档质量而非模型本身。团队不得不为每种新文档类型构建自定义解析器,这不仅造成了脆弱的一次性工程,还带来了高昂的维护成本。

原生支持AI的标准化方案

2024年底,IBM推出了开源工具包Docling,用于促进AI文档解析,这与微软的MarkItDown或Marker项目类似。DocLang在此基础上进一步扩展,制定了在不同系统间交换结构化输出的标准。

DocLang的核心在于其针对大型语言模型(LLM)分词器的优化。该规范依赖于与LLM分词器对齐的限制性XML词汇表,通过标记将DocLang元素与LLM标记进行1对1映射。这种无损转换确保了AI在处理过程中不会丢失有价值信息,同时原生支持表格、公式、图表等多模态内容。

除了技术层面的优化,DocLang还强调了治理优势。在传统文档流转中,溯源数据和元数据常被剥离,而DocLang将这些信息保留在文档结构中,为企业AI应用提供了更确定的基础。

成本可降低30倍以上

效率与成本是企业采纳新技术的关键驱动力。根据AI Cost Check的数据,让AI模型对PDF进行OCR扫描作为基线,大约需要1,200个输入标记和150个输出标记。对于大规模应用而言,这是一笔不可忽视的开支。

ABBYY创建的交互式基准测试展示了DocLang的潜力。以IBM 2025年年度报告为例,其PDF版本会产生8,421个输入标记和512个输出标记,延迟为4.2秒;而DocLang版本仅需5,310个输入标记和498个输出标记,延迟降至2.7秒。更重要的是,DocLang版本在质量上表现更佳,避免了PDF版本中出现的子部分遗漏和表格合并错误。

“模糊的结构迫使模型进行猜测,这不仅增加了幻觉风险,还消耗了大量标记来解读布局。”Knisley解释道。初步基准测试显示,根据评估模型的不同,使用DocLang可将成本降低4倍到30倍以上。

尽管前景乐观,但工作组保持谨慎。“目前还为时过早,我们不会夸大采用率。”Knisley表示,该标准是开放且免费构建的,工作组正积极邀请更多技术提供商和企业加入,早期的市场反响令人鼓舞。

【星途科讯 图文丨慕容雪】

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OHSgsoAzyomnG_dSfHzMdvog0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券