搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

使用FOP从A4 PDF中提取页面并创建A3 PDF

目前，我使用FOP和XSLT创建A4文档。我被要求把这些A4 (肖像画)页缝成A3小册子。例如，我有一个4页的A4文档，我需要把它转换成一个2边的A3小册子，它可以使用第4页和第1页(并排)命令第一边，然后是第2页和第3页。我查看了PDFBOX，看看它是否能做到这一点，但没有取得成功。

浏览 4提问于2016-08-16得票数 0

回答已采纳

6回答

如何使用pdf.js从pdf中正确提取文本

我尝试使用pdf.js将pdf文件中所有页面的文本提取到字符串数组中。当提取完成后，我想以某种方式解析数组。假设pdf文件(通过typedarray正确传递)有4页面，我的代码是： let str = []; pdf.getPage(i).t

浏览 493修改于2019-10-21得票数 16

回答已采纳

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.pdf</em

浏览 6提问于2022-11-27得票数 1

回答已采纳

3回答

使用正则表达式从给定的链接列表中提取pdf链接

但我只需要提取PDF链接。/abcdef/higjkl/Thisisthe-required-document-link-4ea4-8f1c-dd36a1f55d6f.pdf" target="_blank"><img alt=/Include/images/pdf.png"/></a>'] 因此，我只需要提取从

浏览 1修改于2018-06-20得票数 1

回答已采纳

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

3回答

字符串行在位置n=4上匹配，需要从位置n+2提取值

我正在从PDF中提取数据：5 XZXZXZXZXZXZXwith pdfplumber.open(file) as pdf: text = page.extract_text()

浏览 21修改于2021-02-23得票数 0

回答已采纳

4回答

如何使用Python从PDF中提取表作为文本？

我有一个PDF，其中包含表格，文字和一些图像。我想从PDF文件中的任何位置提取表格。 PDFfilename = "Sammamish.pdf" #filename of your PDF/directory where your PDF is storedpfr = PyPDF2.PdfFileReader(open(PDFfilena

浏览 4修改于2020-09-30得票数 47

回答已采纳

1回答

提取PDF的部分

我正在尝试提取PDF文件的部分，以便在文本分析中使用。我尝试使用来实现这一点。但是，像这样的命令仅提取区域的(x,y)坐标，如下例所示。<region x="226.32" y="750.47" width="165.57" height="6.37" line_height="6.37"

浏览 0提问于2016-07-29得票数 0

1回答

如何使用VBA通过透视切片器进行筛选？

我有一个最终提取PDF的宏。我需要提取当月的PDF它是+3个月过滤。我该怎么做呢？因此，例如，如果用户在三月选择了切片器，宏将只提取三月的PDF，但我需要它同时提取同一PDF文件中的四月、五月和六月(因此文件中有4页)。我希望这是有意义的。

浏览 0修改于2019-02-19得票数 0

1回答

我有多个pdf文件，我想提取一组特定的页面，其中每组页面是不同的每一个pdf文件。我已经创建了一个字典，其中键作为pdf文件名，值作为从每个pdf文件中提取的页面列表(显示为键)。我打算从相关的pdf文件中提取给定的页面，并将它们全部写入一个新的pdf文件中，以便我可以在这个最终文件上进行数据提取。我尝试过PyPDF4和FPDF，但到目前为止还没有joy给我一个很大的pdf和空白页

浏览 7修改于2022-02-10得票数 0

回答已采纳

21回答

如何从PDF文件中提取文本？

我正在尝试使用Python提取包含在文件中的文本。我使用的是模块，并具有以下脚本：pdf_file = open('sample.pdf')number_of_pages = read_pdf.getNumPages()page_content = page.extractText

浏览 326修改于2018-10-06得票数 266

1回答

在下面的文件夹/目录中找到一个具有zip的文件名，并将其解压缩到同一个目录中的一个新文件夹中？

现在，我想从DataFrame中的文件列表中提取压缩文件夹。DataFrame file_1.pdf file_1 pdf C:\\temp\documents\file_1.pdf \file_1.pdf file_2.zip file_2 zip C:\\temp\tar file_4

浏览 3修改于2019-11-12得票数 0

1回答

将带格式的文本从pdf提取为html

我需要将PDF文档转换为HTML。我可以在下面实现的地方。2-提取图像5-将配色方案应用于HTML页面。任何帮助都将不胜感激。

浏览 0修改于2013-02-26得票数 0

2回答

提取PDF的部分

我试图提取一部分pdf (该部分的坐标将始终保持不变)使用PDF夏普。然后，我将调整该部分的大小为4“x6”，以打印在一个粘性的背标签上。我如何提取PDF的部分？这是在控制台应用程序C#中完成的。

浏览 1提问于2017-05-11得票数 1

回答已采纳

3回答

如何使用ABCPdf.NET从PDF文件的所有页面提取文本？

如何使用ABCPdf.NET工具从PDF文件中提取内容文本？我尝试了GetText方法，但没有提取内容： Response.Write(xmlContents); d

浏览 0修改于2012-06-12得票数 4

回答已采纳

1回答

文档理解是从UiPath中所有pdf页面中提取数据。

我正在使用文档理解UiPath从多个pdf文件中提取数据。每个pdf文件包含同一页的多份副本，我无法删除。的问题是：2.) --它也是提取它下面的其他无关数据--以及所需的数据。 I无法从pdf文件中删除重复的页面。因此，我不能使用ML抽取器，因为它的限制为2页和4mb大小的。目前，我正在使用表单抽取器和Regex 来提取数据，它们都是从中<em

浏览 7修改于2022-03-11得票数 1

2回答

Apache PDFBox删除字符之间的空格。

我们使用PDFBox从PDF中提取文本。在文本提取之后，我们得到以下文本：(空格加在'，‘和’8‘之间) PDFTextStripper pdfStr

浏览 2修改于2015-04-10得票数 6

回答已采纳

1回答

如何使用PyPDF2提取文本几何？

我有pdf文档。我很清楚如何从中提取文本。from PyPDF2 import PdfReaderpdf = PdfReader(pdf_path)page_1_object.extractText().split(&qu

浏览 6提问于2022-08-26得票数 0

回答已采纳

1回答

SOLR 7.1 Extracthandler Extracthandler extract PDF会添加很多我不想要的额外元数据，这在solr 6中是不会发生的

1.SOLR 7提取pdf将添加许多模式列( pdf meta)和额外的meta pdf数据4.如何关闭它

浏览 0提问于2017-10-24得票数 0

1回答

两种HTML的比较

我在2pdf比较工作，在那里我提取的第一个pdf，以获得的PDF格式的样式，.PDF样式被提取和转换为html。最后，我比较了两个HTML文本。 this.result.AppendFormat( "<tr><td>{0}</td><td>{1}</td><td>{2}pt<&

浏览 1修改于2013-06-04得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用FOP从A4 PDF中提取页面并创建A3 PDF

如何使用pdf.js从pdf中正确提取文本

如何将PDF文件名中的日期提取为数据集？

使用正则表达式从给定的链接列表中提取pdf链接

如何在将文档从PDF转换为文本时处理unicode字符编码问题

字符串行在位置n=4上匹配，需要从位置n+2提取值

如何使用Python从PDF中提取表作为文本？

提取PDF的部分

如何使用VBA通过透视切片器进行筛选？

将多个pdf文件中的特定页面写入一个新pdf文件

如何从PDF文件中提取文本？

在下面的文件夹/目录中找到一个具有zip的文件名，并将其解压缩到同一个目录中的一个新文件夹中？

将带格式的文本从pdf提取为html

提取PDF的部分

如何使用ABCPdf.NET从PDF文件的所有页面提取文本？

文档理解是从UiPath中所有pdf页面中提取数据。

Apache PDFBox删除字符之间的空格。

如何使用PyPDF2提取文本几何？

SOLR 7.1 Extracthandler Extracthandler extract PDF会添加很多我不想要的额外元数据，这在solr 6中是不会发生的

两种HTML的比较

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐