首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏AI技术探索和应用

    文档和图片的OCR解析实践

    文档中的图片或图片本身的OCR识别可以通过第三方工具如PaddleOCR和CNOCR来实现,如下是两个识别过程的实践,以及使用Streamlit构建可视化页面的示例。 https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/ppstructure/docs/quickstart.md 使用PaddleOCR解析 PDF中的图片,或直接解析图片中的Table def pdf(file): table_engine = PPStructure(layout=False, show_log=True) = CnOcr() img_path = 'books.jpg' img = read_img(img_path) res = ocr.ocr(img) for r in ,我将传递给你一个文档内容,在下次交互时用户才会开始提问,你只需要回答是否明白。

    1.1K10编辑于 2024-03-13
  • Datalab Marker与OCR文档解析技术

    本文介绍了Datalab公司的Marker和OCR模型在文档解析与文本提取方面的技术应用。 OCR可从图像和文档中检测九十种语言的文本,并返回阅读顺序和表格网格。Marker模型基于开源项目Marker(某代码托管平台29k星标),OCR基于Surya(19k星标)。 元数据 },)print(output["markdown"][:400])运行OCRimport replicateoutput = replicate.run( "datalab-to/ocr 系统将PDF文档准确转换为Markdown格式并保留关键文本和结构信息的能力。 Marker在所有测试模型中表现优异,包括GPT-4o、Deepseek OCR、Mistral OCR和olmOCR。

    15310编辑于 2026-04-16
  • 来自专栏机器学习与统计学

    OCR 新纪元,超强文档解析 Skills 来了

    做过 RAG 的都知道,解析是第一道关,解析不好,后面再聪明也白搭——垃圾进,垃圾出 OCR文档解析相关我写过 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR 、MinerU 等,横向对比了以上开源方案,从落地层面我最推荐的可能还是# RAG 必备,100 页 PDF 文档秒级精准解析! 单文件≤500MB,无每日页数上限 Skills 地址:github.com/intsig-textin/xparse-skills 核心是两样东西: SKILL.md——告诉 Agent 什么时候触发文档解析 /parsed.json 值得注意的是,CLI 默认已经开启了一套完整的解析能力,不需要额外配置: 能力 说明 标题层级 自动识别文档结构,最多 5 级标题 表格结构 HTML 格式保留单元格层级 图片提取 : 适合你用的场景: 用 Agent 做个人知识管理,原料里有大量 PDF/Word/PPT 搭建 RAG 知识库,需要高精度的文档结构化 日常工作要解析合同、财报、研报这类复杂文档 优缺点直说: 评价

    30910编辑于 2026-04-17
  • Mistral OCR 3:以超高性价比实现SOTA文档解析

    Mistral OCR 3 技术评测:以商品级定价实现SOTA文档解析光学字符识别(OCR)技术的商品化历来是一场向低价看齐的竞赛,通常以牺牲结构保真度为代价。 与通用多模态 LLM 不同,它专注于结构保存——特别是表格重建和密集表单解析——可通过 mistral-ocr-2512 端点访问。 这使得下游的智能体无需复杂的启发式解析器,就能原生地理解文档结构。基准对决:Mistral vs. 社区测试(如“圣诞信件”演示)也证实了其解析混乱草书的能力。Mistral OCR 3 和 Pixtral Large 有什么区别? Mistral OCR 3 是一个专门针对文档解析、表格重建和 Markdown 输出优化的模型。Pixtral Large 是一个通用多模态 LLM。

    30000编辑于 2026-02-08
  • 来自专栏DeepHub IMBA

    使用Python和OCR进行文档解析的完整代码演示

    在本文中将使用Python演示如何解析文档(如pdf)并提取文本,图形,表格等信息。 文档解析涉及检查文档中的数据并提取有用的信息。它可以通过自动化减少了大量的手工工作。 一种流行的解析策略是将文档转换为图像并使用计算机视觉进行识别。 在本文中我将展示如何使用OCR进行文档解析。我将展示一些有用的Python代码,这些代码可以很容易地用于其他类似的情况(只需复制、粘贴、运行),并提供完整的源代码下载。 将文档转换为图像(OCR):使用pdf2image进行转换,使用PyTesseract以及许多其他的库提取数据,或者只使用LayoutParser。 好的多 总结 本文是一个简单教程,演示了如何使用OCR进行文档解析

    2.4K20编辑于 2022-11-11
  • OCR文字识别 在线工具分享

    这个时候,直接用在线OCR文字识别工具会更省事。 在线工具网址:https://see-tool.com/ocr-text-recognition工具截图:我做的这款OCR文字识别工具,主要面向普通用户,适合处理截图、笔记、表单、图片资料等内容。

    19500编辑于 2026-04-15
  • 来自专栏WOLFRAM

    Wolfram 在线文档

    对于这么酷炫的产品,是不是如饥似渴,别急,我们有海量的免费在线帮助文档和源代码供您解渴: Wolfram 在线文档库(http://library.wolfram.com/) 收集了历年来 Wolfram Wolfram 在线视频库(http://www.wolfram.com/broadcast/) 手把手地教您使用 Wolfram 的各种产品,还有各种用户体验故事,不要错过...... 我们有丰富的在线中文帮助文档,帮助您进一步掌握了解 Wolfram 产品: 汉化的产品及功能介绍,各产业的解决方案(www.wolfram.com) 在线 Wolfram 语言与系统参考资料,含有5

    1.6K40发布于 2018-05-31
  • 来自专栏数据派THU

    使用Python和OCR进行文档解析的完整代码演示(附代码)

    来源:DeepHub IMBA本文约2300字,建议阅读5分钟本文中将使用Python演示如何解析文档(如pdf)并提取文本,图形,表格等信息。 文档解析涉及检查文档中的数据并提取有用的信息。 一种流行的解析策略是将文档转换为图像并使用计算机视觉进行识别。 在本文中我将展示如何使用OCR进行文档解析。我将展示一些有用的Python代码,这些代码可以很容易地用于其他类似的情况(只需复制、粘贴、运行),并提供完整的源代码下载。 将文档转换为图像(OCR):使用pdf2image进行转换,使用PyTesseract以及许多其他的库提取数据,或者只使用LayoutParser。 总结 本文是一个简单教程,演示了如何使用OCR进行文档解析。使用Layoutpars软件包进行了整个检测和提取过程。并展示了如何处理PDF文档中的文本,数字和表格。

    2.3K20编辑于 2022-08-29
  • 来自专栏生活处处有BUG

    文件文档在线预览

    背景 系统需要预览在线word、excel、pdf等文件 ,pdf还好,word和excel就不太友好了,需要下载下来,文件少还行,多了,用户就很烦,下载了还得人工删除 。 所以找了一个可以直接在线预览的文案。

    1.4K20编辑于 2023-11-21
  • 来自专栏文档在线预览

    OFD文档在线预览

    OFD是国产的版式文档格式,目前在政府公文、电子发票等方面开始推广运用。由于格式比较新,能直接预览的工具并不多。如果你也存在同样的困扰,可以试试XDOC的文档在线预览服务。 本地文件预览打开https://ofd.xdocin.com,选择本地OFD文件,如下图:图片点击预览按钮,结果如下图:图片在线文档预览调用方法:https://ofd.xdocin.com/view? src=你的OFD文档地址例如:https://ofd.xdocin.com/view?src=https://ofd.xdocin.com/demo/fapiao.ofd显示效果,如下图:图片

    10.7K81编辑于 2023-01-09
  • 来自专栏机器学习与统计学

    大模型 OCR 的黄金时代,腾讯开源混元OCR文档解析、视觉问答和翻译方面达到 SOTA

    模型越做越小,精度越来越高 刚刚,OCR 领域迎来新选手,腾讯的文档理解模型——混元 OCR 开源了 端到端训推一体:不同于其他开源的 OCR 专家模型或系统,HunyuanOCR 模型的训练和推理均采用全端到端范式 通过规模化的高质量应用导向数据,结合在线强化学习,模型表现出了非常稳健的端到端推理能力,有效规避了级联方案常见的相关误差累积问题 在文档解析、视觉问答和翻译方面达到 SOTA 1B 参数,端到端运行,大幅降低了部署成本 在 OCR Bench 数据集上实现了 3B 参数以下模型的 SOTA 分数(860),并在复杂文档解析的 OmniDocBench 数据集上取得了领先的 94.1 分 一个很离谱的成绩是 HunyuanOCR • 提取文档图片中正文的所有信息用 markdown 格式表示,其中页眉、页脚部分忽略,表格用 html 格式表达,文档中公式用 latex 格式表示,按照阅读顺序组织进行解析 信息抽取 • 输出 Key 运行就能在本机实现这个应用了 代码:https://huggingface.co/spaces/tencent/HunyuanOCR/blob/main/app.py 功能上挺齐全的:多场景文字检测与识别、多粒度文档解析

    1.2K10编辑于 2025-11-29
  • 来自专栏小鑫同学编程历险记

    在线文档预览服务

    凯京科技内部文件,严禁外泄} #如需取消水印,内容设置为空即可,例:watermark.txt = ${WATERMARK_TXT:} watermark.txt = ${WATERMARK_TXT:小鑫同学在线

    4.1K30编辑于 2023-03-06
  • 来自专栏bisal的个人杂货铺

    MySQL的在线文档

    Oracle可以说是一款最"开放"的商业数据库,就是因为他提供了很全面的文档体系,能公开的文档,都可以从官网上找到,而且检索便捷。 碰巧看到徐老师写的这篇《MySQL全面的在线文档》,给我们介绍了MySQL的文档体系,毕竟都出自一个厂商,在这方面,还是有些异曲同工之处的。 点击后,即可显示MySQL官方目前提供的全部文档,细心的读者会发现有些文档的右侧会显示一个向下的箭头,点开后会提供下载的PDF文档。 MySQL企业版备份是一款物理备份工具,提供主流的备份功能,并且支持在线备份。 MySQL Cluster)  MySQL服务器的在线手册,用户在这里可以找到使用MySQL的详细信息。

    3.3K20编辑于 2023-02-02
  • 数眼智能OCR文档解析API上线:免费使用!

    营业收入 | 15,280 | +12.5% || 净利润 | 2,150 | +8.3% |## 二、详细分析...为此,数眼智能正式推出新一代OCR文档解析API。 这意味着,学术文献可一键转为可搜索的知识库,发票合同能自动提取数据对接业务系统,复杂报告可即时变为可协作的在线文档。数眼智能OCR API正将沉睡的纸质信息转化为驱动业务增长的智能资产。 如何调用API只需简单几步,即可在数眼智能官网接入OCR文档解析API,或直接在线使用,将技术能力快速集成至您的业务流中。第一步:登录官网,获取密钥 访问数眼智能官网,注册并登录后,进入控制台。 第二步:查阅文档,集成调试在官网文档中心找到「文档OCR解析API」部分,这里提供了完整的接口说明、请求参数和返回示例,直接在线使用或根据自己的开发习惯,使用 Postman、cURL 或任何编程语言的 结语 数眼智能OCR文档解析API,凭借创新的“两阶段协同”架构与10秒内高效响应的核心优势,正成为企业处理非结构化信息的关键引擎。

    46511编辑于 2025-12-19
  • Coze扣子文档解析 VS. 专业OCR工具,RAG知识库性能评测!

    文档解析在此过程中起到了重要作用,从非结构化数据到知识库的转化,将很大程度上决定RAG系统在真实场景中的响应能力与输出可靠性。 常用的朋友知道,创建知识库可以选择使用 Coze 自带的文档解析,直接上传各类格式的文件,也可自行选用其他解析工具,上传经过结构化处理的 Markdown 文件。 1 评测方案1.1 解析工具介绍我们使用两个解析工具分别是:Coze 平台解析和 TextIn 文档解析,一款专业的 PDF 与图像解析产品。 本文中,我们通过横向评测,探究了文档解析能力在预处理环节对 RAG 知识库的效果影响,希望对大家的RAG搭建与选品策略有一定帮助。同时,我们期待与各位交流文档智能 Agent 搭建的经验和想法! 欢迎后台私信小助手,免费开通在线体验文档解析工具~欢迎来交流群领取更多福利、大模型应用技术学习材料,与我们共同探讨技术发展与 AI 应用的可能性。

    1.3K10编辑于 2025-05-21
  • 来自专栏API接口

    行驶证OCR识别接口文档解读

    OCR(Optical Character Recognition,光学字符识别)是一种将图片中的文字转化为可编辑、可搜索的文本的技术。 我们可以通过解析这个结果来获取驾驶证上的各个字段信息。 代码如下: # 解析结果 result = response.json() # 获取驾驶证号 license_number = result['data']['license_number'] # 使用行驶证OCR识别接口可以极大地提高工作效率。我们可以将其应用到各个领域中,例如交通管理部门对驾驶证信息的审核、保险公司对驾驶员信息的核验等等。 总结一下,行驶证OCR识别接口可以自动识别和提取驾驶证上的各个字段信息,包括证号、姓名、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有效期限。

    1.5K21编辑于 2024-05-13
  • 来自专栏木宛城主

    SharePoint中在线编辑文档

    我一直以为只有在Document Library里面的File才会支持在线编辑。直到今天早上我才发现用IE打开List里面的Attachments也是支持在线编辑的,但前提是必须是IE浏览器。 ),客户需要在线编辑功能,还狠狠的批了我们一顿,附件不能在线编辑,那我审核个毛线。 如果你想在SharePoint中,想对上传的文档进行在线的编辑,有2种方法,一种当然是上传到文档库啦,还有一种就是以Attachments上传到List。 当然,你也可以将文档上传到文档库,上传到文档库里面你的操作有历史记录 Document Library  比如我将FileUpload上传的文件保存到文档库中的相应文件夹,以ListID+“-”+ListItemID 命名的文件夹,这样避免了上传文档重名的问题,首先判断是否存在这个文件夹,不存在则创建,当创建完成后,将文档存放在文档库中此文件夹下: if (fileAttachment.HasFile)

    3.9K60发布于 2018-01-11
  • 来自专栏深蓝居

    文档在线预览的实现

    既然是WEB应用,进一步的需求是能够在线查看文档,根据用户需求可能不允许下载,不允许打印文档。 另外一个解决方案是在线文档预览,用户在网页中查看文档内容,用户无需拿到原始文档,如果有权限的话,可以允许用户下载文档。这就就是百度文库,豆丁之类的网站的功能。下面来说说怎么实现。 1.文档统一转换为pdf 这里的文档我们要看是什么格式,不同的格式有不同的转换方法。 1.1 Office文档转换pdf 对于Office文档(Word,Excel,PowerPoint),那么可以调用Office提供的COM接口,把文档另存为PDF。 pdf文档 前面已经统一转换为pdf文档,接下来就是对pdf的在线预览。

    4.7K10编辑于 2022-06-16
  • 来自专栏AI SPPECH

    2025年文档OCR新突破:POINTS-Reader模型全解析与实战

    要点 描述 痛点 传统OCR难以处理含公式、表格的复杂文档 方案 POINTS-Reader端到端文档OCR模型 驱动 2025年文档智能处理必备技能,领先同行 目录 章节 内容 1 POINTS-Reader 核心技术解析:视觉-语言融合架构 POINTS-Reader的核心在于其创新的视觉-语言融合架构,下面我们来详细解析其技术实现。 POINTS-Reader突破了传统OCR中将检测和识别分为两个阶段的限制,通过统一的模型同时完成文档元素的定位和内容识别。 3.1 数据集构建 研究团队构建了大规模的文档OCR数据集,涵盖多种文档类型和语言: 学术论文集:包含大量数学公式和复杂表格的学术论文 商业文档集:各类报表、合同等商业文档 多语言文档:支持中英文等多种语言的文档 要点 描述 核心价值 端到端文档OCR,高效处理复杂文档 行动建议 立即尝试集成POINTS-Reader到您的文档处理流程 未来展望 文档智能处理将成为AI应用的重要方向 参考资料 来源 描述 POINTS-Reader

    87620编辑于 2025-11-13
  • 来自专栏翩翩白衣少年

    PDF Extract API:OCR文档提取与解析工具,Python+自然语言实现

    PDF Extract API,是一款基于现代技术(Python+自然语言),专为文档提取与解析而设计的强大工具。 核心功能 1、高精度文档提取 PDF Extract API 利用先进的现代 OCR(光学字符识别)技术,能够准确提取任何 PDF 文档或图像中的文本内容。 JSON 格式便于后续的数据分析和存储,而 Markdown 则适合快速生成文档和网页内容。 这意味着即使在高并发的情况下,文档提取的速度和效率也能得到保障。 Redis 用于缓存 OCR 结果,进一步提升了性能,让用户能更快地获得处理结果。 结语 PDF Extract API 是一款功能强大且智能化的文档提取与解析工具,凭借其先进的 OCR 技术、精准的数据处理能力以及强大的后台支持,能够极大地提升文档管理的效率与安全性。

    1.5K10编辑于 2024-11-05
领券