搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何检测什么时候用pdf 2提取了pdf的文本？

我使用PyPDF2库通过它的函数从PDF文件中提取文本，对于大多数PDF来说，它工作得很好！ \n！#$%&‘()“+，”-.“)/”0$-1“2)+3-$.45\n”！“#$%&’()#‘，$！$#-$-/$0.1+”#+12$\n！$2%3(%0“%0%”和$1(34+5)%36%1(0，$7\n%8%！#$%&‘($)%“\n%0！%#%+，$%+，-$(7%)；3%099+！\n

浏览 2修改于2017-06-12得票数 1

回答已采纳

1回答

提取2张PDF图像，并在一个PDF页面上合并

我有两页扫描PDF页面，上面到处都是各种各样的文章。在两个页面的中间有两个主要的片段，我想要提取它们，然后将它们作为PDF图像放到一个页面上。我需要只提取中间部分标记x's，然后将这些图像放在另一个之上，以形成一个新的PDF页面。由于各种各样的标记，我需要尽可能接近文本框。“标识”中的页面大小为612x786。

浏览 2提问于2017-03-02得票数 0

2回答

如何按顺序提取单词？

在比较两个PDFS时，我试图提取这些差异。我附上了一张图片来一瞥PDF。我已经提取了两个PDfs之间的逐行差异.我还逐字逐句地提取了差异。但这些词并没有按正确的顺序提取。我用下面的代码逐字提取. if f != s:这里，changed_lines是PDF</

浏览 4提问于2022-08-03得票数 0

1回答

PyPDF2提取空白文本

我试图从PyPDF2中提取文本，但它正在从PDF中提取空白文本。PDF是文本格式的，而不是基于图像的。有没有办法对pdf进行泛化，使其提取文本？因为我不想改变这个库，我的整个代码都依赖于它。在这里找到pdf：https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing im

浏览 22修改于2021-02-01得票数 0

2回答

pdf2json npm包没有提取段落中的数据，有没有其他的npm？

我尝试用pdf2json npm软件包从pdf中提取数据，但它没有提取段落中的数据。我有一个pdf文件，其中包含表格，副词和图表在它，我想提取原始数据作为一个文本文件。是否有其他选项可以使用节点js从段落中的pdf中提取数据。

浏览 2修改于2022-09-19得票数 0

1回答

Python文本提取不适用于某些pdfs。

我正试图通过url读取一个pdf。我遵循了许多堆栈溢出建议，并使用PyPdf2 FileReader从pdf中提取文本。= PyPDF2.PdfFileReader(fileInput) print pdf.getDocumentInfo()我能够成功地为第一个链接提取文本。但是如果我在第二个pdf</em

浏览 0提问于2015-05-16得票数 2

回答已采纳

2回答

在创建了一个使用java和pdfbox提取pdf的工具之后，我一直在尝试用Python提取pdf。虽然对于相同的pdf，Java实现是成功的，但我一直在努力在python中做同样的事情，因为pdfminer和pypdf和pypdf2都不能逐行提取带有空格的pdf。特别是，出于某种奇怪的原因，pdfminer pdf2txt将pdf拆分为3列，然后逐行读取。我得到的最接近的是使用的实现，不幸的是，它

浏览 10修改于2017-05-23得票数 4

3回答

使用Python从PDF所有页面和输出文件中提取文本

我使用这段代码来提取文本。是否可以提取所有页面并将其输出到文件中？import PyPDF2read_pdf = PyPDF2.PdfFileReader(pdf_file)page = read_pdf.getPage(10

浏览 2提问于2017-04-10得票数 6

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.<e

浏览 6提问于2022-11-27得票数 1

回答已采纳

1回答

无法从特定PDF中提取文本和图像

有谁能让我知道如何从PDF中提取所有文本和图像？在类似的场景中，我能够提取图像，我使用Google创建了一个PDF，只有几行文本和2个png图像。但是，我无法从样本中提取图像。我试过以下几点：1)“pdf阅读器”创业板，它只支持少数格式的图像提取。1) "pdfimages“工具，它只支持少数格式的

浏览 0修改于2015-05-20得票数 2

回答已采纳

1回答

Acrobat，提取PDF文件

嗨，我试图在Adobe的文件夹中提取一组PDF文件，我让它们提取大于2页的PDF文件，并将这些摘要作为新文档保存到我的新文件夹中。我的问题是，如果我试图提取一个PDF文件，只有2页，什么也不会发生，我仍然希望将文件移动到文件夹，即使它不大于2页。var re = /\.pdf$/i; var filename = this.documentFileName.replace(re, "&

浏览 0提问于2018-04-12得票数 0

回答已采纳

1回答

使用python从不可Cpyable Pdf中提取文本

我一直在尝试从pdfs中提取文本，我正在使用python的PyPDF2和提取文本，但现在我试图从不可复制的PDFs中提取文本。它会返回空字符串。我正在从这里在线将简单的可复制的PDF转换为不可复制的PDF：https://online-pdf-no-copy.com/ 下面是我的代码： from PyPDF2 import PdfFileReaderdef get_info(path): with open(pat

浏览 16修改于2020-01-10得票数 0

1回答

使用Python仅从PDF中提取特定文本

需要使用python从具有不同PDF结构的发票PDF文件中提取特定的文本，并将输出数据存储到特定的excel列中。所有PDF文件都有不同的结构，但内容值相同。试图解决这个问题，但不能只提取特定的文本值。import PyPDF2pdfFileObj = open('test.pdf&

浏览 8修改于2020-10-05得票数 1

回答已采纳

1回答

使用pdftotext提取特定数据

我正在使用pdftotext Python Library从PDF文档中提取一些数据。import pdftotext with open("text2.pdf", "rb") as f:

浏览 18提问于2021-09-08得票数 1

回答已采纳

0回答

使用pypdf2 not working从pdf中提取标题

我正在尝试使用pyPDF2来提取文件的标题。输出为无或标题错误。我也尝试了使用PDFminer，结果仍然是一样的。我试着用了3个不同的pdf文件。有没有更好的方法来更准确地提取标题？这是我使用的代码： pdf_reader = PdfFileReader(open(pdf_file_path

浏览 3修改于2018-07-18得票数 0

回答已采纳

1回答

如何使用python提取pdf文件中每一行的文本

我经历了许多从pdf文件中提取数据的解决方案，但没有找到解决这个问题的方法。Big Y Mozzarella String 16oz 16oz Pkg Cheese PKG 我需要使用python为pdf文件的每一行提取UPC、和Sub名称我能够使用下面的代码从pdf文件中提取文本。from PyPDF2 import PdfFileReader, PdfFileWriter pdfFileObj = open('groc

浏览 3修改于2017-11-24得票数 0

2回答

从PDF中提取文本: PDFLib和PDF对pdf2xml

我正在寻找一个库(如果可能的话，在Java或PHP中可用)，以便从PDF中提取文本。有许多可用的软件，包括：你会选择哪种工具？你觉得他们怎么样？非常感谢您的帮助！

浏览 4修改于2010-11-13得票数 3

回答已采纳

1回答

如何在C#中提取Apache FOP创建的PDF？

我想提取Apache FOP生成的PDF文件编程没有任何第三方应用程序。我尝试使用许多库，如PDFBox，IKVM，PDF2Text，ITextSharp，PDFSharp来提取PDF文件，但都失败了。当我将FOP生成的PDF提取到文本文件中时，我得到了许多正方形符号和其他纠缠在一起的字符。谢谢。

浏览 0提问于2011-10-01得票数 0

1回答

两种HTML的比较

我在2pdf比较工作，在那里我提取的第一个pdf，以获得的PDF格式的样式，.PDF样式被提取和转换为html。最后，我比较了两个HTML文本。 this.result.AppendFormat( "<tr><td>{0}</td><td>{1}</td><td>{

浏览 1修改于2013-06-04得票数 2

1回答

使用python从pdfs中提取特定文本

我尝试过不同的python库来从pdfs中提取特定的文本，我必须从这个pdf中提取标题下的文本，我必须将从例1开始的文本提取为菱形粗体。代码1import docx file='Book_EM-Cases-Digest-Vol-2</e

浏览 20修改于2022-07-18得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何检测什么时候用pdf 2提取了pdf的文本？

提取2张PDF图像，并在一个PDF页面上合并

如何按顺序提取单词？

PyPDF2提取空白文本

pdf2json npm包没有提取段落中的数据，有没有其他的npm？

Python文本提取不适用于某些pdfs。

可以在Python中提取带有空格的pdf吗？

使用Python从PDF所有页面和输出文件中提取文本

如何将PDF文件名中的日期提取为数据集？

无法从特定PDF中提取文本和图像

Acrobat，提取PDF文件

使用python从不可Cpyable Pdf中提取文本

使用Python仅从PDF中提取特定文本

使用pdftotext提取特定数据

使用pypdf2 not working从pdf中提取标题

如何使用python提取pdf文件中每一行的文本

从PDF中提取文本: PDFLib和PDF对pdf2xml

如何在C#中提取Apache FOP创建的PDF？

两种HTML的比较

使用python从pdfs中提取特定文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐