搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

Python 3 PDF文本提取

我最近从python2转到python3。我知道python3不支持PDFMiner模块。所以我想知道是否有替代PDFMiner的方法，或者更简单一些，是否有任何模块支持Python3，并且能够从pdf中提取文本和数字？

浏览 5提问于2015-09-14得票数 3

1回答

MP3音频不是附件，它们不显示在Acrobat的附件面板上，它们显示在评论面板上，Adobe /Acrobat只能将它们导出到Acrobat的数据文件中，这是一个类似于pdf的数据文件。不幸的是，PDF文件不能作为档案打开，从中提取文件。那么，我如何提取MP3's？有任何免费的Linux或Windows软件可以轻松地做到这一点吗？我尝试过这些程序的免费试用，它们要么只显示评论(甚至不能播放)，要么直接导出到.fdf，要么无法显示评论，要么只能提取附

浏览 0修改于2020-10-09得票数 1

回答已采纳

2回答

使用C# - ZUGFeRD中的A PDF从PDF/3中提取嵌入式XML文件

这些是PDF / A/3文件，其中有一个嵌入的XML文件，其中包含数据。知道怎么做吗？非常感谢和问候，

浏览 4修改于2019-09-06得票数 3

回答已采纳

21回答

如何从PDF文件中提取文本？

我正在尝试使用Python提取包含在文件中的文本。我使用的是模块，并具有以下脚本：pdf_file = open('sample.pdf')number_of_pages = read_pdf.getNumPages()page_content = page.extractText

浏览 326修改于2018-10-06得票数 266

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.<e

浏览 6提问于2022-11-27得票数 1

回答已采纳

1回答

面对使用java从pdf文件中提取文本的问题

无法从具有客户加密字体的pdf中提取文本，后者可以通过Adobe中的File -> ->字体识别。其中一种字体被提及为，C0EX02Q0_22类型:类型3编码:自定义实际字体: C0EX02Q0_22实际字体类型:类型3 让我知道是否有任何方法来提取这些pdf文件的文本内容。目前，我正在使用的PDFText2HTML从pdf util。在提取这样的pdf文件时，获取类似于‘extracting @ files’之类的值。样

浏览 0修改于2014-01-22得票数 1

2回答

从PDF中提取文本: PDFLib和PDF对pdf2xml

我正在寻找一个库(如果可能的话，在Java或PHP中可用)，以便从PDF中提取文本。有许多可用的软件，包括：你会选择哪种工具？你觉得他们怎么样？非常感谢您的帮助！

浏览 4修改于2010-11-13得票数 3

回答已采纳

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

PyPDF2提取空白文本

我试图从PyPDF2中提取文本，但它正在从PDF中提取空白文本。PDF是文本格式的，而不是基于图像的。有没有办法对pdf进行泛化，使其提取文本？因为我不想改变这个库，我的整个代码都依赖于它。在这里找到pdf：https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing import PyPD

浏览 22修改于2021-02-01得票数 0

2回答

可以在Python中提取带有空格的pdf吗？

在创建了一个使用java和pdfbox提取pdf的工具之后，我一直在尝试用Python提取pdf。虽然对于相同的pdf，Java实现是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf和pypdf2都不能逐行提取带有空格的pdf。特别是，出于某种奇怪的原因，pdfminer pdf2txt将pdf拆分为3列，然后逐行读取。我得到的最接近的是使用的实现，不幸的是，它没有保留空格。鉴于

浏览 10修改于2017-05-23得票数 4

1回答

Bash -在文件夹/文件夹中提取所有PDF的特定页面。

我正在为bash终端寻找一个命令来解决以下问题：会像这样吗？for i in *.pdf; do pdftk "${i%.pdf}.pdf" cat 3 output "${i%.pdf}.pdf"; convert "${i%.<

浏览 0修改于2019-03-13得票数 1

1回答

在python中将图章从PDF中提取为jpg

我需要从pdf中提取的一些图像不是作为图像转换为pdf，而是作为Stamp。我得到了很多PDF，我想从这些PDF中提取所有的邮票和所有的图像(我有一个脚本用于所有图像，但不是所有的邮票)。我只想要这些邮票的JPG，但我不知道如何才能解析这些PDF和提取所有的JPG格式的邮票。我想在python 3中做到这一点。非常感谢!致以敬意，

浏览 21提问于2021-05-20得票数 0

2回答

如何使用camelot从pdf中提取表格？

我想在python3中使用camelot从pdf中提取所有的表格。# PDF file to extract tables fromtables = camelot.read_pdf(file)print("Total tables extracted/p

浏览 29提问于2020-05-27得票数 1

1回答

如何使用PyPDF2提取文本几何？

我有pdf文档。我很清楚如何从中提取文本。from PyPDF2 import PdfReaderpdf = PdfReader(pdf_path)page_1_object.extractText().

浏览 6提问于2022-08-26得票数 0

回答已采纳

1回答

pdfminer3不是从彩色pdf页面中提取文本，如何将pdf页面转换成灰度？

我正在使用pdfminer3库从pdf中提取文本。但是它在彩色页面中的效果并不好。我尝试使用以下代码从pdf中提取文本：from pdfminer3.pdfpage import PDFPage我不想把pdf转换成图像，然后转换成grascale，我已经做了，因为pytesseract不能很好地提取数据。我也试过了pdf</e

浏览 2修改于2020-12-26得票数 0

1回答

如何使用VBA通过透视切片器进行筛选？

我有一个最终提取PDF的宏。我需要提取当月的PDF它是+3个月过滤。我该怎么做呢？因此，例如，如果用户在三月选择了切片器，宏将只提取三月的PDF，但我需要它同时提取同一PDF文件中的四月、五月和六月(因此文件中有4页)。我希望这是有意义的。

浏览 0修改于2019-02-19得票数 0

2回答

如何将代码应用于一个目录中的多个文件以及该目录中具有相同文档名的输出文件？

我有一个包含pdf文件的目录，我想从其中提取文本(每个文件都是单独的)，并将它们放入与原始pdf文件同名的单独.txt文件中。示例:目录X包含'name1.pdf‘、'name2.pdf’和'name3.pdf‘import tex

浏览 8提问于2017-02-16得票数 0

回答已采纳

2回答

如何使用pdfminer.six

我正在尝试使用Python3.x中的pdfminer从pdf中提取文本。我使用以下命令安装了它当我尝试使用下面的命令提取文本时，我得到了一个错误错误: pdf2txt.py:

浏览 102提问于2018-02-08得票数 1

回答已采纳

0回答

使用pypdf2 not working从pdf中提取标题

我正在尝试使用pyPDF2来提取文件的标题。输出为无或标题错误。我也尝试了使用PDFminer，结果仍然是一样的。我试着用了3个不同的pdf文件。有没有更好的方法来更准确地提取标题？这是我使用的代码： pdf_reader = PdfFileReader(open(pdf_file_path, "r

浏览 3修改于2018-07-18得票数 0

回答已采纳

1回答

从S3存储桶python中提取文本

我的亚马逊网络服务s3存储桶中有多个格式文件，如pdf、doc、rtf、odt、png，我需要从中提取文本。我已经设法获得了内容列表及其路径.now，具体取决于文件类型，我将使用不同的库从文件中提取文本。由于文件可能数以千计，我需要直接从s3中提取文本，而不是下载。/IndustryReport2019.pdf', 'https://abc.s3.ap-south-1.amazonaws.com

浏览 11提问于2021-01-19得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python 3 PDF文本提取

从PDF中提取MP3音频或声音

使用C# - ZUGFeRD中的A PDF从PDF/3中提取嵌入式XML文件

如何从PDF文件中提取文本？

如何将PDF文件名中的日期提取为数据集？

面对使用java从pdf文件中提取文本的问题

从PDF中提取文本: PDFLib和PDF对pdf2xml

如何在将文档从PDF转换为文本时处理unicode字符编码问题

PyPDF2提取空白文本

可以在Python中提取带有空格的pdf吗？

Bash -在文件夹/文件夹中提取所有PDF的特定页面。

在python中将图章从PDF中提取为jpg

如何使用camelot从pdf中提取表格？

如何使用PyPDF2提取文本几何？

pdfminer3不是从彩色pdf页面中提取文本，如何将pdf页面转换成灰度？

如何使用VBA通过透视切片器进行筛选？

如何将代码应用于一个目录中的多个文件以及该目录中具有相同文档名的输出文件？

如何使用pdfminer.six

使用pypdf2 not working从pdf中提取标题

从S3存储桶python中提取文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐