搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.pdf</em

浏览 6提问于2022-11-27得票数 1

回答已采纳

1回答

从PDF中提取页面时Ghostscript丢失字体

我使用可用的命令行将PDF拆分为多个页面： -dBATCH \ -dFirstPage=$G \ -o $G.pdf\d

浏览 0修改于2012-06-26得票数 0

1回答

使用XSLT使用嵌入式PDF呈现XML

我有一个XML文档，其中包含一个编码的非XML PDF。<component> <text mediaType="application/pdf" representation="B64">JVBERi0xLjQKJeLjz9MKNyAwIG9iago8PC9UeXBlL1hPYmplY3QvQ29sb3JTcGFjZS9EZXZpY2VS有没有一种方法可以提取</

浏览 0修改于2012-04-13得票数 0

回答已采纳

3回答

使用正则表达式从给定的链接列表中提取pdf链接

但我只需要提取PDF链接。tablebluelink" href="https://www.samplewebsite.com/xml-data/abcdef/higjkl/Thisisthe-required-document-b4df-16t9g8p93808/Include/images/pdf.png"/></a>'] 因此，我只需要提取</

浏览 1修改于2018-06-20得票数 1

回答已采纳

21回答

如何从PDF文件中提取文本？

我正在尝试使用Python提取包含在文件中的文本。我使用的是模块，并具有以下脚本：pdf_file = open('sample.pdf')number_of_pages = read_pdf.getNumPages()page_content = page.extractText

浏览 326修改于2018-10-06得票数 266

1回答

无法使用preg_match提取文本

我有这样的代码：$a = new PDF2Text();$a->decodePDF(); print

浏览 1修改于2013-03-07得票数 0

回答已采纳

1回答

使用关键字directory ()函数。它不会使用R执行正确的计数

我正在使用pepa函数来提取pdf文档中包含单词“人工智能”的段落。但是，我不会提取包含这些单词的所有段落。我错过的要少得多。它不能从文档的末尾提取这些内容。dirct <- directory_path result <- keyword_directory(dirct, keyword = 'Artificial Intelligence', split_pdfhttps://www.telefonica.com/documents

浏览 15修改于2020-09-24得票数 0

1回答

如何使用PyPDF2提取文本几何？

我有pdf文档。我很清楚如何从中提取文本。from PyPDF2 import PdfReaderpdf = PdfReader(pdf_path)page_1_object.extractText().split(&qu

浏览 6提问于2022-08-26得票数 0

回答已采纳

1回答

如何引用内置到Windows中的PDF* IFilter (dll)接口以通过Classic ASP提取pdf文档的文本和属性*

我想提取文本和属性(作者、标题等)一个PDF文件。这个是可能的吗？如果是这样，我该如何开始呢？

浏览 1修改于2017-10-16得票数 0

2回答

使用Python从pdf中提取图像

我们如何从PDF中提取图像(仅图像)。我使用了很多在线工具，它们都不是通用的。在大多数PDF中，它工具是整个图像的屏幕截图，而不是图像。sg.inflibnet.ac.in:8080/jspui/bitstream/10603/121661/9/09_chapter链接-> PDF 4.pdf

浏览 31修改于2019-05-30得票数 1

3回答

在带有正则表达式的文件名末尾提取版本号

我试图使用一个正则表达式提取版本号：filename.1.0.doc --> 1.0filename.3.0.docx --> 3.0[0-9]+\.[0-9]+\.(docx|pdf|rtf|doc|docm)$ 但我不想分机。所以我搜索的是在字符串中最后一个点出现之前的[0-9]+\.[0-<

浏览 0提问于2019-05-23得票数 1

回答已采纳

1回答

从包含两列的PDF中很好地提取文本

我正在尝试提取这些公司的年报文本。它的设计是在两列的大部分。所以我不知道如何正确地提取它，因为在使用pdftools包的R I中，我提取第一列的第一行紧邻第二列的第一行，而不是第一列的第二行。这是我的代码： library(pdftools) readpdf<- pdf_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Ma

浏览 22提问于2020-09-18得票数 2

1回答

从python中的parsed_pdf [content]中提取特定行

嗨，我正在使用tikka包从pdf中提取文本，但我想从提取的内容中提取第5行，我尝试了使用其他pdf提取模块，但是我只使用tikka的那种pdf可以解析它。parsed_pdf = parser.from_file("mypdf.pdf") print(parsed_pdf[&#x

浏览 2提问于2021-06-01得票数 0

4回答

如何提取由空格分隔的字符串的一部分？

如果我有像这样的字符串：我想把它的第一部分提取出来如何在C++/CLI或C#中做到这一点？

浏览 0提问于2011-10-16得票数 1

回答已采纳

4回答

Regex可以匹配吗？

我有这些文件名：ZATR0018_2018.pdf其中ZATR后面的4位数字是杂志的发行号。用这个正则表达式：我可以提取8，18或218，但是我想保留最少2位和最大3位，所以结果应该是08，18和218。怎么可能这样做呢？

浏览 9修改于2017-12-25得票数 0

回答已采纳

1回答

从传入邮件中提取(并上载)附件

您知道如何从传入的邮件中提取附件吗？我有一份PDF文件附在这条信息上。这就是我在控制台中看到的： ['contentType':'application/pdf; name="TransakciaMK.pdf"', 'filename':'TransakciaMK.pdf', 'disposition':'attachment', 'content

浏览 1修改于2016-12-14得票数 0

回答已采纳

1回答

pdfminer3不是从彩色pdf页面中提取文本，如何将pdf页面转换成灰度？

我正在使用pdfminer3库从pdf中提取文本。但是它在彩色页面中的效果并不好。但是从有色区域提取的数据如下：我也试过了pdf管道工，但它也没有给我正确的数据。或者有人能建议我从图像中<

浏览 2修改于2020-12-26得票数 0

1回答

搜索存储在Google上的pdf文档中的特定字符串

我的项目是发送带有pdf附件的电子邮件。我所有的pdf是在一个文件夹中的谷歌驱动器，我需要寻找特定的pdf相关的特定客户。pdf只包含文字和客户号码。因此，我需要一个脚本，以提取文本从pdf到字符串，并研究这个字符串，以确定它是否包含客户编号。function myFunction() { var file = DocsList.getFileById('my <e

浏览 4修改于2014-05-30得票数 0

1回答

Google到文本页编号限制

我有一些pdf文件在一个文件夹上的谷歌驱动器，我试图转换pdf到谷歌文档，并提取特定的文本。PDF有200多页，但即使是google.doc文件也限制在80页以内。您可以运行OCR的页数有限制吗？const FOLDER_ID = "1rlAL4WrnxQ6pEY2uOmzWA_csUIDdBjVK"; //Folder ID of all PDFs const SS = "1XS_YUUdu9FK_bBumK3lFu9fU_M9

浏览 7修改于2022-07-27得票数 0

1回答

使用itextsharp提取c#中的阿拉伯文本

 { ITextExtractionStrategy

浏览 4修改于2018-07-11得票数 4

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何将PDF文件名中的日期提取为数据集？

从PDF中提取页面时Ghostscript丢失字体

使用XSLT使用嵌入式PDF呈现XML

使用正则表达式从给定的链接列表中提取pdf链接

如何从PDF文件中提取文本？

无法使用preg_match提取文本

使用关键字directory ()函数。它不会使用R执行正确的计数

如何使用PyPDF2提取文本几何？

如何引用内置到Windows中的PDF* IFilter (dll)接口以通过Classic ASP提取pdf文档的文本和属性*

使用Python从pdf中提取图像

在带有正则表达式的文件名末尾提取版本号

从包含两列的PDF中很好地提取文本

从python中的parsed_pdf [content]中提取特定行

如何提取由空格分隔的字符串的一部分？

Regex可以匹配吗？

从传入邮件中提取(并上载)附件

pdfminer3不是从彩色pdf页面中提取文本，如何将pdf页面转换成灰度？

搜索存储在Google上的pdf文档中的特定字符串

Google到文本页编号限制

使用itextsharp提取c#中的阿拉伯文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐