搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.pdf</em

浏览 6提问于2022-11-27得票数 1

回答已采纳

2回答

我必须从现有的PDF文档中提取文本。目前，我使用PyMuPDF模块来实现这一点。总体而言，它工作得很好，而且速度非常快。问题是，这个工具会用新的换行符替换pdf文档中的所有水平制表符(例如，在headings: 5 \t Topic中)。由于我必须逐行提取文本，这对我来说是非常不切实际的。有没有人知道如何解决这个问题，或者知道另一种方法来逐页逐行提取文本页面？我还尝试了tika (这里我不能分页提取文本)和PyPDF2 (这太可怕了:对于任何格式化的文本(比如粗体)，它

浏览 17修改于2019-05-04得票数 1

1回答

PyPDF2提取空白文本

我试图从PyPDF2中提取文本，但它正在从PDF中提取空白文本。PDF是文本格式的，而不是基于图像的。有没有办法对pdf进行泛化，使其提取文本？因为我不想改变这个库，我的整个代码都依赖于它。在这里找到pdf：https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt5Ovhc/view?usp=sharing import PyPD

浏览 22修改于2021-02-01得票数 0

1回答

从python中的parsed_pdf [content]中提取特定行

嗨，我正在使用tikka包从pdf中提取文本，但我想从提取的内容中提取第5行，我尝试了使用其他pdf提取模块，但是我只使用tikka的那种pdf可以解析它。parsed_pdf = parser.from_file("mypdf.pdf") print(parsed_pdf

浏览 2提问于2021-06-01得票数 0

1回答

如何使用R库遍历多个pdf文件

我有一个任务来读取多个pdf文件，并提取页眉和页脚。下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚，但我想对多个文件执行相同的操作并提取数据。请给我建议。library(pdftools)files<- list.files(pattern='pdf$') pdf_22 <- pdf_t

浏览 30提问于2021-01-19得票数 0

回答已采纳

1回答

是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？

假设我得到了几个关键字，而这些关键字都在PDF文件中。是否有方法提取与关键字相关的值？我使用pdfminer读取PDF文件并将其转换为文本文件。我有两个问题- 有些答案建议使用OCR，但是如何才能读取值呢？一些人还建议使用机器学习/深度学习算法，该算法应该确定PDF<

浏览 1修改于2019-01-07得票数 0

21回答

如何从PDF文件中提取文本？

我正在尝试使用Python提取包含在文件中的文本。我使用的是模块，并具有以下脚本：pdf_file = open('sample.pdf')number_of_pages = read_pdf.getNumPages()page_content = page.extractText

浏览 326修改于2018-10-06得票数 266

1回答

将带格式的文本从pdf提取为html

我需要将PDF文档转换为HTML。我可以在下面实现的地方。2-提取图像5-将配色方案应用于HTML页面。任何帮助都将不胜感激。

浏览 0修改于2013-02-26得票数 0

1回答

如何从多个PDF文件中提取以预定义字母表开头的特定行

下面的代码帮助我从目录中拉出每个PDF文件的第一页。library(pdftools) lapply(files, function(x) strsplit(pdf_text(x), "\n")[[1]]) -> result 现在我想从这些页面中提取特定的行例如:我有这行“源程序: lafaf_sfafatfga.sas”在PDF中，现在我只想提取这一行，类似地，我想提取至少5行，每行以不同的单词或字母开头。所以输出应该只有我要求的

浏览 15提问于2021-01-19得票数 0

回答已采纳

2回答

如何使用PyPDF2按正确的顺序从PDF中提取文本？

我目前正在做一个项目，以提取PDF的内容。代码运行平稳，我可以提取文本，但提取的文本没有正确的顺序。代码以一种奇怪的方式提取文本。课文的顺序到处都是。它不会自上而下，而且真的令人困惑。作为参考，这是我目前正在测试的PDF文件(第5页)： reader= PyPDF2.PdfFile

浏览 8提问于2021-05-16得票数 0

回答已采纳

3回答

如何使用ABCPdf.NET从PDF文件的所有页面提取文本？

如何使用ABCPdf.NET工具从PDF文件中提取内容文本？我尝试了GetText方法，但没有提取内容： Response.Write(xmlContents); d

浏览 0修改于2012-06-12得票数 4

回答已采纳

2回答

Apache PDFBox删除字符之间的空格。

我们使用PDFBox从PDF中提取文本。在文本提取之后，我们得到以下文本：(空格加在'，‘和’8‘之间) PDFTextStripper pdfStr

浏览 2修改于2015-04-10得票数 6

回答已采纳

3回答

字符串行在位置n=4上匹配，需要从位置n+2提取值

我正在从PDF中提取数据：5 XZXZXZXZXZXZXwith pdfplumber.open(file) as pdf: text = page.extract_text() for i, li

浏览 21修改于2021-02-23得票数 0

回答已采纳

2回答

使用python从扫描的Pdf中提取pdf数据

我用tesseract ocr从扫描的pdf文件中提取数据，我可以提取数据，但精度不好。在很多地方，它显示了错误的数据，所以我可以通过python获得100%准确的数据。首先，我将pdf转换为jpg格式，然后使用tesseract模块从图像中提取数据。Image text=(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\pdf11.jpg&qu

浏览 11修改于2019-08-22得票数 1

1回答

如何避免在python中提取PDF文件中的小图像元素？

我正在尝试从这个PDF文件中提取所有的图片：file = fitz.open("example.pdf") page = len(file) image_list = pdf.getPageImageList(p

浏览 31提问于2021-06-10得票数 0

回答已采纳

2回答

PDF文档中的总页数

MATLAB提供了函数，它允许我们从PDF文件中读取文本以及其他文件格式，并将提取的文本保存为字符串。str = extractFileText("exampleSonnets.pdf", 'Pages', [3 5 7]); 然而，这个函数并没有提供一种方法

浏览 24修改于2019-01-13得票数 1

回答已采纳

2回答

从pdf文件中提取单词而不是字母？

我使用less，它使用pdftotext从less my.pdf的pdf文件中提取文本。这样，一些单词的字母由空格与pdf文件隔开。CH APTE R 2 5 T E ST IN G WE B A P P LIC AT IO N S 540 一些人声称Adobe没有问题。我没有程序来证实这一点。但是我想知道Linux中的哪个软件程序可以正确地提取单词呢？

浏览 0修改于2015-02-16得票数 1

1回答

如何从PDF中提取文本，并得到页面坐标和字符串位置之间的转换？

我希望从PDF中提取纯文本，并通过一个命名实体识别函数来运行它，该函数将显示文本和字符串位置。谢谢!

浏览 9提问于2022-06-17得票数 1

回答已采纳

1回答

在uipath中不工作的锚基用于pdf提取

我希望从PDF发票中提取特定的文本和数字，其中之一是总金额。事情是，的总金额的立场不断变化从pdf到pdf的是根据有多少个项目。如果有很多项目，那么总金额字段将在pdf中较低，如果项目的数量较少，那么总金额将更高在pdf中。参考图见下图。发票中只有两个项目，所以总字段位于较高的位置。那我该怎么提取呢？我试过使用Anchor base，但它不起作用！这是我迄今所做的工作： 1.)指定一个for循环来打开文件夹中的每个pdf。2.)对于每一个<

浏览 18修改于2022-03-02得票数 0

回答已采纳

1回答

扫描时CGPDFScanner - \x15字符

我试图在中提取第5页的文本。当遇到这个字符时，当前字体是上面提到的字体，它没有从pdf字符串中提取文本。

浏览 5提问于2015-07-07得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何将PDF文件名中的日期提取为数据集？

用PyMuPDF逐页逐行提取pdf中的文本

PyPDF2提取空白文本

从python中的parsed_pdf [content]中提取特定行

如何使用R库遍历多个pdf文件

是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？

如何从PDF文件中提取文本？

将带格式的文本从pdf提取为html

如何从多个PDF文件中提取以预定义字母表开头的特定行

如何使用PyPDF2按正确的顺序从PDF中提取文本？

如何使用ABCPdf.NET从PDF文件的所有页面提取文本？

Apache PDFBox删除字符之间的空格。

字符串行在位置n=4上匹配，需要从位置n+2提取值

使用python从扫描的Pdf中提取pdf数据

如何避免在python中提取PDF文件中的小图像元素？

PDF文档中的总页数

从pdf文件中提取单词而不是字母？

如何从PDF中提取文本，并得到页面坐标和字符串位置之间的转换？

在uipath中不工作的锚基用于pdf提取

扫描时CGPDFScanner - \x15字符

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐