腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Python
3
PDF
文本
提取
我最近从python2转到python
3
。我知道python
3
不支持PDFMiner模块。所以我想知道是否有替代PDFMiner的方法,或者更简单一些,是否有任何模块支持Python
3
,并且能够从
pdf
中
提取
文本和数字?
浏览 5
提问于2015-09-14
得票数 3
1
回答
从
PDF
中
提取
MP
3
音频或声音
MP
3
音频不是附件,它们不显示在Acrobat的附件面板上,它们显示在评论面板上,Adobe /Acrobat只能将它们导出到Acrobat的数据文件中,这是一个类似于
pdf
的数据文件。不幸的是,
PDF
文件不能作为档案打开,从中
提取
文件。 那么,我如何
提取
MP
3
's?有任何免费的Linux或Windows软件可以轻松地做到这一点吗?我尝试过这些程序的免费试用,它们要么只显示评论(甚至不能播放),要么直接导出到.fdf,要么无法显示评论,要么只能
提取
附
浏览 0
修改于2020-10-09
得票数 1
回答已采纳
2
回答
使用C# - ZUGFeRD中的A
PDF
从
PDF
/
3
中
提取
嵌入式XML文件
这些是
PDF
/ A/
3
文件,其中有一个嵌入的XML文件,其中包含数据。知道怎么做吗? 非常感谢和问候,
浏览 4
修改于2019-09-06
得票数 3
回答已采纳
21
回答
如何从
PDF
文件中
提取
文本?
我正在尝试使用Python
提取
包含在文件中的文本。我使用的是模块,并具有以下脚本:
pdf
_file = open('sample.
pdf
')number_of_pages = read_
pdf
.getNumPages()page_content = page.extractText
浏览 326
修改于2018-10-06
得票数 266
1
回答
如何将
PDF
文件名中的日期
提取
为数据集?
我正在尝试从多个
PDF
中
提取
日期,以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.
pdf
2 ./2012.02.07.
pdf
3
./2012.03.12.<e
浏览 6
提问于2022-11-27
得票数 1
回答已采纳
1
回答
面对使用java从
pdf
文件中
提取
文本的问题
无法从具有客户加密字体的
pdf
中
提取
文本,后者可以通过Adobe中的File -> ->字体识别。其中一种字体被提及为,C0EX02Q0_22类型:类型
3
编码:自定义实际字体: C0EX02Q0_22实际字体类型:类型
3
让我知道是否有任何方法来
提取
这些
pdf
文件的文本内容。目前,我正在使用的PDFText2HTML从
pdf
util。在
提取
这样的
pdf
文件时,获取类似于‘extracting @ files’之类的值。样
浏览 0
修改于2014-01-22
得票数 1
2
回答
从
PDF
中
提取
文本: PDFLib和
PDF
对
pdf
2xml
我正在寻找一个库(如果可能的话,在Java或PHP中可用),以便从
PDF
中
提取
文本。有许多可用的软件,包括:你会选择哪种工具?你觉得他们怎么样? 非常感谢您的帮助!
浏览 4
修改于2010-11-13
得票数 3
回答已采纳
1
回答
如何在将文档从
PDF
转换为文本时处理unicode字符编码问题
我正在尝试从
PDF
中
提取
文本。
PDF
包含印地语(Unicode)文本。我使用的
提取
实用程序是Apache PDFBox ( )。
提取
器
提取
文本,但文本无法识别。下面是一个例子:假设
PDF
中的文本是:पवार有什么建议吗?
浏览 3
提问于2011-09-20
得票数 4
回答已采纳
1
回答
PyPDF2
提取
空白文本
我试图从PyPDF2中
提取
文本,但它正在从
PDF
中
提取
空白文本。
PDF
是文本格式的,而不是基于图像的。有没有办法对
pdf
进行泛化,使其
提取
文本?因为我不想改变这个库,我的整个代码都依赖于它。在这里找到
pdf
:https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv
3
gzZPOvt5Ovhc/view?usp=sharing import PyPD
浏览 22
修改于2021-02-01
得票数 0
2
回答
可以在Python中
提取
带有空格的
pdf
吗?
在创建了一个使用java和pdfbox
提取
pdf
的工具之后,我一直在尝试用Python
提取
pdf
。虽然对于相同的
pdf
,Java实现是成功的,但我一直在努力在python中做同样的事情,因为pdfminer和pypdf和pypdf2都不能逐行
提取
带有空格的
pdf
。特别是,出于某种奇怪的原因,pdfminer
pdf
2txt将
pdf
拆分为
3
列,然后逐行读取。 我得到的最接近的是使用的实现,不幸的是,它没有保留空格。鉴于
浏览 10
修改于2017-05-23
得票数 4
1
回答
Bash -在文件夹/文件夹中
提取
所有
PDF
的特定页面。
我正在为bash终端寻找一个命令来解决以下问题:会像这样吗?for i in *.
pdf
; do pdftk "${i%.
pdf
}.
pdf
" cat
3
output "${i%.
pdf
}.
pdf
"; convert "${i%.<
浏览 0
修改于2019-03-13
得票数 1
1
回答
在python中将图章从
PDF
中
提取
为jpg
我需要从
pdf
中
提取
的一些图像不是作为图像转换为
pdf
,而是作为Stamp。我得到了很多
PDF
,我想从这些
PDF
中
提取
所有的邮票和所有的图像(我有一个脚本用于所有图像,但不是所有的邮票)。我只想要这些邮票的JPG,但我不知道如何才能解析这些
PDF
和
提取
所有的JPG格式的邮票。我想在python
3
中做到这一点。 非常感谢!致以敬意,
浏览 21
提问于2021-05-20
得票数 0
2
回答
如何使用camelot从
pdf
中
提取
表格?
我想在python
3
中使用camelot从
pdf
中
提取
所有的表格。#
PDF
file to extract tables fromtables = camelot.read_
pdf
(file)print("Total tables extracted/
p
浏览 29
提问于2020-05-27
得票数 1
1
回答
如何使用PyPDF2
提取
文本几何?
我有
pdf
文档。我很清楚如何从中
提取
文本。from PyPDF2 import PdfReader
pdf
= PdfReader(
pdf
_path)page_1_object.extractText().
浏览 6
提问于2022-08-26
得票数 0
回答已采纳
1
回答
pdfminer
3
不是从彩色
pdf
页面中
提取
文本,如何将
pdf
页面转换成灰度?
我正在使用pdfminer
3
库从
pdf
中
提取
文本。但是它在彩色页面中的效果并不好。我尝试使用以下代码从
pdf
中
提取
文本:from pdfminer
3
.pdfpage import PDFPage我不想把
pdf
转换成图像,然后转换成grascale,我已经做了,因为pytesseract不能很好地
提取
数据。 我也试过了
pdf</e
浏览 2
修改于2020-12-26
得票数 0
1
回答
如何使用VBA通过透视切片器进行筛选?
我有一个最终
提取
PDF
的宏。我需要
提取
当月的
PDF
它是+
3
个月过滤。 我该怎么做呢?因此,例如,如果用户在三月选择了切片器,宏将只
提取
三月的
PDF
,但我需要它同时
提取
同一
PDF
文件中的四月、五月和六月(因此文件中有4页)。我希望这是有意义的。
浏览 0
修改于2019-02-19
得票数 0
2
回答
如何将代码应用于一个目录中的多个文件以及该目录中具有相同文档名的输出文件?
我有一个包含
pdf
文件的目录,我想从其中
提取
文本(每个文件都是单独的),并将它们放入与原始
pdf
文件同名的单独.txt文件中。示例:目录X包含'name1.
pdf
‘、'name2.
pdf
’和'name
3
.
pdf
‘import tex
浏览 8
提问于2017-02-16
得票数 0
回答已采纳
2
回答
如何使用pdfminer.six
我正在尝试使用Python
3
.x中的pdfminer从
pdf
中
提取
文本。我使用以下命令安装了它当我尝试使用下面的命令
提取
文本时,我得到了一个错误错误:
pdf
2txt.py:
浏览 102
提问于2018-02-08
得票数 1
回答已采纳
0
回答
使用pypdf2 not working从
pdf
中
提取
标题
我正在尝试使用pyPDF2来
提取
文件的标题。输出为无或标题错误。我也尝试了使用PDFminer,结果仍然是一样的。我试着用了
3
个不同的
pdf
文件。有没有更好的方法来更准确地
提取
标题?这是我使用的代码:
pdf
_reader = PdfFileReader(open(
pdf
_file_path, "r
浏览 3
修改于2018-07-18
得票数 0
回答已采纳
1
回答
从S
3
存储桶python中
提取
文本
我的亚马逊网络服务s
3
存储桶中有多个格式文件,如
pdf
、doc、rtf、odt、png,我需要从中
提取
文本。我已经设法获得了内容列表及其路径.now,具体取决于文件类型,我将使用不同的库从文件中
提取
文本。由于文件可能数以千计,我需要直接从s
3
中
提取
文本,而不是下载。/IndustryReport2019.
pdf
', 'https://abc.s
3
.ap-south-1.amazonaws.com
浏览 11
提问于2021-01-19
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券