首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏浊酒清味

    利用Python将. pdf电子书籍转换成音频有声读物

    为此,我们将使用一个名为pdftotext的库。 先安装: sudo pip install pdftotext 然后: from tkinter import Tk from tkinter.filedialog import askopenfilename import pdftotext Tk().withdraw() # we don't want a full GUI, so keep the root window from appearing with open(filelocation, "rb") as f: # open the file in reading (rb) mode and call it f pdf = pdftotext.PDF pip install gtts 然后: from tkinter import Tk from tkinter.filedialog import askopenfilename import pdftotext

    1.9K20发布于 2020-04-14
  • PDF转纯文本技术方案对比:开源、API与在线工具实测(2026)

    开发者通常面临三类技术路线:开源自建(pdftotext)、商业API(腾讯云文档服务)、现成在线工具(含国内小程序)。 特殊符号(€、∞、²、③),约5000字硬件:4核8G云服务器(Ubuntu22.04)网络:国内普通宽带,不挂代理方法:每款方案连续转换3次取平均值,评估段落保留率、特殊字符准确率及耗时一、开源自建方案(pdftotext )使用poppler-utils中的pdftotext工具,支持布局保留参数。 #安装sudoapt-getinstallpoppler-utils#提取文本(保留原始布局)pdftotext-layoutinput.pdfoutput.txt实测数据(服务器本地):100页耗时: 批量自动化、涉密文档:推荐自建pdftotext脚本,数据不出本地,速度快。企业高精度、结构化输出:采用腾讯云文档服务,稳定可靠,段落保留率高。

    3310编辑于 2026-06-16
  • 2026年PDF转纯文本技术方案对比:自建、API与在线工具实测

    一、开源自建(pdftotextpdftotext-layoutinput.pdfoutput.txt耗时:约5秒(本地)优点:免费,保留段落结构,本地运行缺点:表格内容顺序可能错乱二、商业API(腾讯云文档服务 四、选型建议个人日常:国内小程序,18秒转纯文本,完全免费批量自动化:自建pdftotext脚本企业集成:腾讯云API根据需求选择即可。本文为技术测评,数据基于实测。

    12510编辑于 2026-06-03
  • 来自专栏FreeBuf

    wholeaked:一款能够追责数据泄露的文件共享工具

    wholeaked还需要使用pdftotext来验证PDF文件中的水印如果你不使用该功能,就可以不用安装pdftotextpdftotext的安装步骤如下: 1、Linux系统需要下载“Xpdf”命令行工具,下载地址:https://www.xpdfreader.com/download.html; 2、提取压缩包,并切换到 “bin64”目录; 3、将pdftotext(或pdftotext.exe)拷贝到wholeaked目录下即可; 4、基于Debian的Linux系统可以运行下列命令直接安装pdftotext: apt

    2.4K10编辑于 2022-06-08
  • PDF转Markdown技术方案对比:开源、API与在线工具实测(2026)

    开发者通常面临三类技术路线:开源自建(pandoc+pdftotext)、商业API(腾讯云文档服务)、现成在线工具(含国内小程序)。 Markdown表格4个、H1-H4标题),约8MB硬件:4核8G云服务器(Ubuntu22.04)网络:国内普通宽带,不挂代理方法:每款方案连续转换3次取平均值,记录端到端耗时一、开源自建方案(pandoc+pdftotext )#安装依赖sudoapt-getinstallpandocpoppler-utils#转换(先提取文本再转MD)pdftotext-layoutinput.pdftemp.txtpandoctemp.txt-ooutput.md

    3000编辑于 2026-06-16
  • 来自专栏玉树芝兰

    安装 Python 软件包遇错误,怎么办?

    提示他的系统里面,没有 pdftotext 。 他于是想,既然 wordcloud ,是需要 pip 命令安装的,那么这个 pdftotext ,看来也需要 pip 安装,对不对? 他尝试执行: pip install pdftotext pip 确实找到了这个名称的软件包,开始安装。他瞬间成就感爆棚。 但是,一盆冷水,很快就被泼了下来。 打开 pdftotext 官方 github 页面的答疑记录来看, Windows 干脆就无法像 Linux 或者 macOS 一样,一行命令安装好依赖。 wordcloud.png 思考一下,使用 pdftotext 这个软件包,用来做什么? 我们需要的,根本就不是正确安装 pdftotext ,而是找到一个工具,把 pdf 给我们转换成为文本。 好了,“把 pdf 转换成为文本”让你想到了什么?

    2.1K20发布于 2018-10-25
  • 来自专栏python与大数据分析

    关于PDF文件转图片、转文本

    pdfpathfile = 'Oracle分析函数.pdf' # 指定储存图片的目录 imgpath = 'yyyy/' pdftoimage(pdfpathfile, imgpath) pdftotext datetime.datetime.now() # 结束时间 print('pdf转换image时间=', (endtime - starttime).seconds) 解析结果如下: def pdftotext

    2.3K20编辑于 2022-03-11
  • PDF转Markdown技术方案对比:开源、API与在线工具实测(2026)

    H4标题),约8MB硬件:4核8G云服务器(Ubuntu22.04)网络:国内普通宽带,不挂代理方法:每款方案连续转换3次取平均值,记录端到端耗时(含上传/转换/下载)一、开源自建方案(pandoc+pdftotext )使用pdftotext提取文本后通过pandoc转换,或使用pdf2md等工具。 #安装依赖sudoapt-getinstallpandocpoppler-utils#方式一:PDF转TXT再转MD(丢失排版)pdftotext-layoutinput.pdftemp.txtpandoctemp.txt-ooutput.md

    3700编辑于 2026-06-15
  • PDF转Markdown技术方案对比:开源、API与在线工具实测(2026)

    H4标题),约8MB硬件:4核8G云服务器(Ubuntu22.04)网络:国内普通宽带,不挂代理方法:每款方案连续转换3次取平均值,记录端到端耗时(含上传/转换/下载)一、开源自建方案(pandoc+pdftotext )使用pdftotext提取文本后通过pandoc转换,或直接使用pdf2md等工具。 #安装依赖sudoapt-getinstallpandocpoppler-utils#方式一:PDF转TXT再转MD(丢失排版)pdftotext-layoutinput.pdftemp.txtpandoctemp.txt-ooutput.md

    4800编辑于 2026-06-16
  • 来自专栏机器学习与统计学

    把技术书变成 Claude Code 随身 Skills,最大价值是内部资料 Skills 化

    PDF 提取分两个模式: text 模式:用 pdftotext → PyPDF2 → pdfminer 的降级链,秒级完成,适合纯文字书 technical 模式:用 Docling 做布局感知提取, 保留表格和代码块的 Markdown 格式,每页约 1.5 秒 官方给了一个 103 页技术书的对比数据: 方法 耗时 Token 数 表格数 代码块数 pdftotext 0.1s 27K 0 0 Docling 编译阶段的流程: 文档文件 │ ▼ 用户选择:技术书 or 纯文字书 │ ├── 技术 → Docling (保留表格和代码) └── 文字 → pdftotext 降级链 (快速) replication # 查某个话题 /designing-data-intensive-apps ch05 # 直接看第 5 章 PDF 提取的依赖:纯文字书装 pdftotext

    27310编辑于 2026-06-01
  • 来自专栏linux 自动化运维

    shell 对 PDF 转 txt 后自动查找内容

    "[runing] 正在将pdf 文件转换为 txt 文件: $PDFtoTxtFile " sudo apt install -y poppler-utils pdftotext -layout $PdfDir/$PdfFile $PDFtoTxtFile # 保留原换行格式 进行转换 # pdftotext $PdfDir/$PdfFile $PDFtoTxtFile

    89810编辑于 2024-04-25
  • 来自专栏安恒网络空间安全讲武堂

    35c3CTF junior 部分web wp

    strstr(shell_exec("pdftotext $pdf1 - | head -n 1 | grep -oP '^NO FLAG!$'"), "NO FLAG!")) strstr(shell_exec("pdftotext $pdf2 - | head -n 1 | grep -oP '^GIVE FLAG!$'"), "GIVE FLAG!"))

    82420发布于 2019-09-27
  • 来自专栏人人都是架构师

    Go每日一库之149:PDF处理相关库

    html转换等 下载该软件包后,可以得到一系列的工具: pdfdetach pdffonts pdfimages pdfinfo pdftohtml pdftopng pdftoppm pdftops pdftotext 比如识别一个文件是不是pdf文件,识别pdf中的文字,识别pdf中的图片等 1.识别pdf中的文字 这里使用xpdf将pdf中的文字解析出来,然后再使用一些字符串操作或者正则表达式进行业务分析 使用xpdf/pdftotext 解析pdf中的文本 $ pdftotext input.pdf output.txt 使用unipdf解析pdf中的文本 $ unipdf extract text input.pdf 使用API解析

    3.8K40编辑于 2023-10-02
  • 来自专栏马洪彪

    LIMS系统仪器数据采集-使用xpdf解析pdf内容

    c#调用示例代码: 1 Process p = new Process(); 2 p.StartInfo.FileName = @"pdftotext.exe

    2.4K40发布于 2018-04-12
  • 来自专栏不止于python

    python之PDF提取文字(超级简单)

    它建立在 PDFMiner、pdftotext 和 pyPDF2 等库之上,提供了更加高级和便捷的界面,使得从 PDF 中提取文本、表格和其他数据变得更加简单 安装 pip install pdfplumber

    5.5K11编辑于 2023-09-05
  • 来自专栏FreeBuf

    XCTF杂项入门writeup

    :在线pdf转word: https://app.xunjiepdf.com/pdf2word/ 然后移开图片得到flag 方法二:将pdf转为txt就看到flag(kali中,无网环境/比赛环境) pdftotext

    1.5K40发布于 2021-05-20
  • 来自专栏四楼没电梯

    扣子空间的系统提示词

    , "pdf": "处理.pdf文件使用 pdftotext 提取文本,.zip/.rar/.7z/.tar 文件使用相应解压工具。"

    60801编辑于 2025-04-23
  • 来自专栏Go语言学习专栏

    基于 Go + DeepSeek-R1 构建企业级简历解析智能体:从 PDF 提取到结构化画像

    PDF Parser —— 基于混合策略的解析工具 在底层文本提取环节,我们采用 CLI 包装模式,构建了一个高可用的 PDF 解析工具,主要包含两种策略: 优先策略:使用 pdftotext 工具配合

    31910编辑于 2026-03-17
  • 来自专栏网络安全攻防

    会用Skill的人,已经把AI用成自动化系统了

    ## 命令行工具 ### pdftotext (poppler-utils) ```bash # 提取文本 pdftotext input.pdf output.txt # 提取保留布局的文本 pdftotext -layout input.pdf output.txt # 提取特定页面 pdftotext -f 1 -l 5 input.pdf output.txt # 第 1-5 页 ``` ###

    52811编辑于 2026-04-17
  • Claude Skills 背后的原理解析

    但当pdf Skill被加载时,该Skill可以临时授予AI使用Bash(pdftotext:*)的权限。甚至,某些Skill还能要求切换到更强大的模型来执行当前任务。

    37510编辑于 2026-02-02
领券