搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

4回答

从pdf flle中提取页面

我想以另一个PDF文件的形式从PDF文件中提取第10页。程序qpdf应该能做到这一点。当我运行命令时它似乎完成了提取，但是没有输出；没有创建文件mtg.pdf。我得到了同样的结果(更直接的命令) qpdf 0092434747.pdf --pages . 10 -- mtg.pdf</em

浏览 0修改于2023-03-21得票数 1

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.pdf</em

浏览 6提问于2022-11-27得票数 1

回答已采纳

3回答

使用Python从PDF所有页面和输出文件中提取文本

我使用这段代码来提取文本。是否可以提取所有页面并将其输出到文件中？import PyPDF2read_pdf = PyPDF2.PdfFileReader(pdf_file)page = read_pdf.getPage(10) page_co

浏览 2提问于2017-04-10得票数 6

1回答

如何使用IBM Watson Explorer提取PDF* URL的关键字属性？*

我想从PDF链接中提取PDF的关键字值。我正在爬行一个页面，其中包含一些PDF的链接。我想建立一个虚拟文档，在那里我必须将这些PDF入队。我不想抓取这些PDF的内容，但我只想从这些PDF中提取关键字。当我使用inspect source打开这些PDF链接时，它确实有一个关键字字段。但是它没有任何关键字的值。它看起来是这样的： <span data-l

浏览 17修改于2018-07-05得票数 2

7回答

中间的C#子串

我有以下数据：D:\toto\food\Cloture_856589_12_01_2013.pdf如何提取日期部分？例如：

浏览 0修改于2015-08-11得票数 4

回答已采纳

1回答

用python从pdf中提取特定文本

是否可以使用python从pdf中提取特定的文本。测试用例:我有一个超过10页的PDF文件，我需要提取特定的文本和与它们相关联的值。示例：用户:value用户id:value。需要提取这些值。

浏览 3提问于2020-05-10得票数 0

2回答

如何在Java中从pdf中获取指定的页面范围？

我有一个很大(大约1000页)的pdf文件。是否需要从pdf (作为新pdf文件)中提取某些Java API/库(例如6-10页)？

浏览 0提问于2012-04-12得票数 0

回答已采纳

2回答

简化Python中的嵌套Try Catch

我有一个不同类型的PDF文件列表。不同的类型包含的信息不同，格式也不同。基于PDF的类型，我需要从它们中提取不同的信息。为此，我使用了两个Python库，它们允许我以不同的方式从PDF文件中提取数据。问题是，例如，我可以通过查看数据帧中的索引10来识别PDF_1，而在读取PDF_2时，没有索引10，所以我得到了一个IndexError。

浏览 1修改于2020-07-07得票数 0

1回答

如何使用PyPDF2提取文本几何？

我有pdf文档。我很清楚如何从中提取文本。from PyPDF2 import PdfReaderpdf = PdfReader(pdf_path)page_1_object.extractText().split(&qu

浏览 6提问于2022-08-26得票数 0

回答已采纳

4回答

是否有Linux CLI工具可用于提取页面范围以生成较小的PDF？

有没有一个cli工具可以提取pdf的部分并制作新的更小的pdf？我想这样做: pdftool -s 4 -e 10 'thefile.pdf‘"thenew.pdf'，其中-s和-e分别是起始页和结束页。

浏览 0修改于2012-08-07得票数 2

回答已采纳

1回答

从PDF中提取MP3音频或声音

MP3音频不是附件，它们不显示在Acrobat的附件面板上，它们显示在评论面板上，Adobe /Acrobat只能将它们导出到Acrobat的数据文件中，这是一个类似于pdf的数据文件。不幸的是，PDF文件不能作为档案打开，从中提取文件。洗发水PDF</

浏览 0修改于2020-10-09得票数 1

回答已采纳

2回答

从2个字符串或变量创建Dataframe名称

我正在从pdf文件中提取选定的页面。并希望根据提取的页面分配数据帧名称： file = "abc"for i in selected_pages(): df{str(i)} = read_pdf(path + file + ".p

浏览 27提问于2019-10-13得票数 0

2回答

如何从这个压缩的PDF/A中提取文本？

为了机器学习目的()，我需要从很多PDF文件中提取原始文本。+"\""+pdf+".txt"+"\""with open(pdf+".txt") as f: print("") pass

浏览 12修改于2020-05-21得票数 4

回答已采纳

1回答

如何将pdf文件的内容提取为字符串变量

我想知道如何( perl脚本)提取pdf的内容并将其插入数据库。示例:我有一个pdf文件(参见下面的示例: MyPdfFile)，我希望从这个文件中提取项目代码项目(A和B)、数量(3和2)和价格(10和20)，并将它们插入数据库(表:订单)。

浏览 0提问于2019-01-28得票数 1

回答已采纳

2回答

使用Imagemagick将一系列页面从pdf提取到jpeg时输出文件名

我正在尝试使用convert (Imagemagick)从多页pdf文件中提取一系列页面到单独的jpeg中。提取工作正常。我坚持的是，如果我想提取页面范围10-20，我仍然得到名称为page-0.jpeg到page-9.jpeg的jpeg文件，而我希望它们被命名为page-10.jpeg到page-20.jpeg。我之所以需要这样做，是因为我想以10为单位提取页面，以避免消耗太多内存来存储巨大的pdf文件，并且不想不断地重命名这些文件

浏览 0提问于2009-12-30得票数 4

回答已采纳

1回答

不同相对url中的刮取液url

我试图提取的pdf以及10k表单(以html格式)使用Scrapy。为了提取它们，我使用以下css选择器：most_recent = response.css("div.view_btn > a::attr(href)").getall()，它按预期返回['/Click但是pdf和html的url在每个相对的url中。刮伤怎么能得到绝对和“正确”的url？(“更正”url = ) 我需要url，因为scrapy将响应发送到另一个函数，以便下载pdf</

浏览 1提问于2021-08-28得票数 1

回答已采纳

1回答

扫描时CGPDFScanner - \x15字符

我试图在中提取第5页的文本。当遇到这个字符时，当前字体是上面提到的字体，它没有从pdf字符串中提取文本。

浏览 5提问于2015-07-07得票数 0

回答已采纳

1回答

提取列treeview中的某些值

基本上，我试图在这个块中创建一个按钮，该按钮将创建一个pdf的我的treeview。我所要做的就是对我的treeview中的每一行都有数据，只从其中一列“行”中提取数据，然后放入pdf中。是因为行pdf.cell(200, 10, txt=word, ln=1, align='L')有txt，它不能处理字符串变量word吗？我们很感激你的帮助！()

浏览 1提问于2021-12-15得票数 1

回答已采纳

3回答

从PDF中提取原始嵌入式图像的软件工具？

有谁知道一个简单的(可能是免费的) Windows PDF提取器吗？有人能推荐好的软件吗？

浏览 0修改于2015-11-29得票数 3

2回答

从我试图提取的PDF文档中省略页面

我试图用tabula-py从多页PDF中提取表格，虽然PDF的某些页面上的表被完美地提取出来，但是-一些页面被完全省略了。遗漏似乎是随机的，并且不遵循PDF上任何可见的视觉特性(因为每一页看起来相同)，因此表格省略了第1页、提取的第2页、省略的第3和第4页、提取的第5页、省略的第6页、提取的第8和9页、省略的10、提取的11我尝试过将PDF分成更短的部分，甚至是一个寻呼机，但是不管我尝试了什么，省略

浏览 3提问于2018-07-29得票数 3

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

从pdf flle中提取页面

如何将PDF文件名中的日期提取为数据集？

使用Python从PDF所有页面和输出文件中提取文本

如何使用IBM Watson Explorer提取PDF* URL的关键字属性？*

中间的C#子串

用python从pdf中提取特定文本

如何在Java中从pdf中获取指定的页面范围？

简化Python中的嵌套Try Catch

如何使用PyPDF2提取文本几何？

是否有Linux CLI工具可用于提取页面范围以生成较小的PDF？

从PDF中提取MP3音频或声音

从2个字符串或变量创建Dataframe名称

如何从这个压缩的PDF/A中提取文本？

如何将pdf文件的内容提取为字符串变量

使用Imagemagick将一系列页面从pdf提取到jpeg时输出文件名

不同相对url中的刮取液url

扫描时CGPDFScanner - \x15字符

提取列treeview中的某些值

从PDF中提取原始嵌入式图像的软件工具？

从我试图提取的PDF文档中省略页面

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐