搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.pdf</em

浏览 6提问于2022-11-27得票数 1

回答已采纳

1回答

从pdf列表中提取特定页面并创建新的pdf

我一直在尝试从每个pdf中提取空间页面，然后将所有提取的pdf合并在一起。我有pdf的列表from pdfrw import PdfReader, PdfWriterfiles = [f for fin os.listdir( print(file

浏览 0提问于2021-09-29得票数 0

2回答

对表列使用Postgres JSON函数

", "extension": ".pdf", { "id": 0, "name": "1000MB-PDF.pdf", "extension": ".pdf", "transferId&q

浏览 13修改于2017-03-09得票数 9

回答已采纳

1回答

如何使用python从pdf中提取单个行表数据？

我需要从pdfs中提取表格数据。pdf中的一些表只包含一行。我一直在尝试使用camelot库提取数据。使用Camelot提取代码：import camelottables = camelot.read_pdf(file,pages ="all")以上代码无法提取单

浏览 18修改于2022-11-23得票数 -1

回答已采纳

2回答

如何在Java中从pdf中获取指定的页面范围？

我有一个很大(大约1000页)的pdf文件。是否需要从pdf (作为新pdf文件)中提取某些Java API/库(例如6-10页)？

浏览 0提问于2012-04-12得票数 0

回答已采纳

1回答

是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？

假设我得到了几个关键字，而这些关键字都在PDF文件中。是否有方法提取与关键字相关的值？我使用pdfminer读取PDF文件并将其转换为文本文件。我有两个问题- 有些答案建议使用OCR，但是如何才能读取值呢？一些人还建议使用机器学习/深度学习算法，该算法应该确定PDF<

浏览 1修改于2019-01-07得票数 0

2回答

提取PDF的部分

我试图提取一部分pdf (该部分的坐标将始终保持不变)使用PDF夏普。然后，我将调整该部分的大小为4“x6”，以打印在一个粘性的背标签上。我如何提取PDF的部分？这是在控制台应用程序C#中完成的。

浏览 1提问于2017-05-11得票数 1

回答已采纳

1回答

SOLR 7.1 Extracthandler Extracthandler extract PDF会添加很多我不想要的额外元数据，这在solr 6中是不会发生的

1.SOLR 7提取pdf将添加许多模式列( pdf meta)和额外的meta pdf数据4.如何关闭它

浏览 0提问于2017-10-24得票数 0

3回答

字符串行在位置n=4上匹配，需要从位置n+2提取值

我正在从PDF中提取数据：5 XZXZXZXZXZXZXwith pdfplumber.open(file) as pdf: text = page.extract_text() for i, li

浏览 21修改于2021-02-23得票数 0

回答已采纳

6回答

如何使用pdf.js从pdf中正确提取文本

我是ES6和Promise的新手。我尝试使用pdf.js将pdf文件中所有页面的文本提取到字符串数组中。当提取完成后，我想以某种方式解析数组。假设pdf文件(通过typedarray正确传递)有4页面，我的代码是： let str = []; pdf<

浏览 493修改于2019-10-21得票数 16

回答已采纳

1回答

使用io和PyPDF2从PDF* url中提取文本没有输出。*

我正在尝试从pdf url中提取文本。如果我下载PDF，我可以很容易地用slate函数提取文本。但是，当尝试使用io导入pdf并提取文本时，返回的输出什么都不是。代码附在下面。action=accessToPDF&publicinterface=true&tab=AN&reference=e3ca421447bc6b71&encode=true&optimize=20210216&databasematch=AN'

浏览 14修改于2021-02-28得票数 0

1回答

如何读取PDF文件

除了使用ADO之外，是否还有其他方法可以使用VB6从PDF文件中提取数据？我已经成功地在不使用Acrobat Reader的情况下使用VB6打开了PDF文件，但我的项目的下一步需要读取PDF文件并从中找到数据。例如，哪些页面显示“水泥”一词？

浏览 7修改于2012-05-16得票数 0

3回答

使用正则表达式从给定的链接列表中提取pdf链接

但我只需要提取PDF链接。/abcdef/higjkl/Thisisthe-required-document-link-4ea4-8f1c-dd36a1f55d6f.pdf" target="_blank"><img alt=/Include/images/pdf.png"/></a>'] 因此，我只需要提取从'htt

浏览 1修改于2018-06-20得票数 1

回答已采纳

2回答

解析pdf文件时使用pdfminer.six时出现问题

我正在尝试使用pdfminer.six从pdf中提取文本，我遵循了下面提到的代码import io output = io.StringIO() return output.getvalu

浏览 0提问于2018-02-09得票数 2

2回答

从我试图提取的PDF文档中省略页面

我试图用tabula-py从多页PDF中提取表格，虽然PDF的某些页面上的表被完美地提取出来，但是-一些页面被完全省略了。遗漏似乎是随机的，并且不遵循PDF上任何可见的视觉特性(因为每一页看起来相同)，因此表格省略了第1页、提取的第2页、省略的第3和第4页、提取的第5页、省略的第6页、提取的第8和9页、省略的10、提取的11我尝试过将PDF分成更短的部分，甚至是一个寻呼机，但是不管我尝试了什么，省略

浏览 3提问于2018-07-29得票数 3

1回答

如何在Python中从PDF文件中提取文本？

如何在Python中从PDF文件中提取文本？我尝试了以下几种方法：import pyPdf content = "" for i in range(0, pdf.getNumPages()): content += pdf.getPage(i

浏览 23修改于2013-03-23得票数 20

回答已采纳

1回答

在python中提取以转义字符结尾的文本

我试图通过python解析PDF文件的关键细节，并提取论文的标题、作者和他们的电子邮件。text += page.extract_text() + "\n"这使得提取电子邮件

浏览 4提问于2022-09-05得票数 -1

1回答

python基于模式拆分长输出字符串(无分隔符)

我是python的新手，我试着用(PyPDF2)来阅读PDF地图。我得到了这个作为输出Sample output of pdf map as text。我想从这个输出中提取某个模式与RIY-DIRAHH-015524.49121946.651068匹配的数据。我只需要那些只有这个模式的值。图案的长度在30-34之间变化。Complete output of PDF MAP。请帮助提取/拆分特定值(匹配模式)。如果有任何其他解决方案可用于阅读PDF地图。敬请指教。提前谢谢。im

浏览 27提问于2020-06-17得票数 1

回答已采纳

1回答

用PHP从PDF文件中提取HTML表格？

我想知道是否有可能从PDF文件中提取一个数据表，到一个数组或类似的地方，这样我就可以使用PHP导入表数据？我已经安装了DomPDF来创建PDF文件，但它没有读取PDF的选项。如果我用PHP读取PDF文件，我会得到一个编码的字符串：任何帮助都将不胜感激

浏览 6提问于2013-11-04得票数 1

1回答

HowTo从PDF中提取嵌入的光学字符识别数据？

我有嵌入OCR数据的PDF文件。(所以我已经对它们进行了orcd )，所以它们是可搜索的。现在我想提取这个OCR数据，因为我想放入我的tomcat6搜索服务器。为此，我需要普通的OCR数据。所以我的问题是，有没有可能从pdf文件中提取嵌入的OCR数据？如果能得到带有坐标的文件就好了。但它也足以获得纯文本文件。

浏览 2修改于2016-01-17得票数 2

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何将PDF文件名中的日期提取为数据集？

从pdf列表中提取特定页面并创建新的pdf

对表列使用Postgres JSON函数

如何使用python从pdf中提取单个行表数据？

如何在Java中从pdf中获取指定的页面范围？

是否有一种方法可以搜索特定关键字的pdf并显示与该关键字相关联的值？

提取PDF的部分

SOLR 7.1 Extracthandler Extracthandler extract PDF会添加很多我不想要的额外元数据，这在solr 6中是不会发生的

字符串行在位置n=4上匹配，需要从位置n+2提取值

如何使用pdf.js从pdf中正确提取文本

使用io和PyPDF2从PDF* url中提取文本没有输出。*

如何读取PDF文件

使用正则表达式从给定的链接列表中提取pdf链接

解析pdf文件时使用pdfminer.six时出现问题

从我试图提取的PDF文档中省略页面

如何在Python中从PDF文件中提取文本？

在python中提取以转义字符结尾的文本

python基于模式拆分长输出字符串(无分隔符)

用PHP从PDF文件中提取HTML表格？

HowTo从PDF中提取嵌入的光学字符识别数据？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐