腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何将
PDF
文件名中的日期
提取
为数据集?
我正在尝试从多个
PDF
中
提取
日期,以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.
pdf
2 ./2012.02.07.
pdf
3 ./2012.03.12.
pdf</em
浏览 6
提问于2022-11-27
得票数 1
回答已采纳
1
回答
从
PDF
中
提取
页面时Ghostscript丢失字体
我使用可用的命令行将
PDF
拆分为多个页面: -dBATCH \ -dFirstPage=$G \ -o $G.
pdf
\d
浏览 0
修改于2012-06-26
得票数 0
1
回答
使用XSLT使用嵌入式
PDF
呈现XML
我有一个XML文档,其中包含一个编码的非XML
PDF
。<component> <text mediaType="application/
pdf
" representation="B64">JVBERi0xLjQKJeLjz
9
MKNyAwIG
9
iago8PC
9
UeXBlL1hPYmplY3QvQ29sb3JTcGFjZS
9
EZXZpY2VS有没有一种方法可以
提取</
浏览 0
修改于2012-04-13
得票数 0
回答已采纳
3
回答
使用正则表达式从给定的链接列表中
提取
pdf
链接
但我只需要
提取
PDF
链接。tablebluelink" href="https://www.samplewebsite.com/xml-data/abcdef/higjkl/Thisisthe-required-document-b4df-16t
9
g8p93808/Include/images/
pdf
.png"/></a>'] 因此,我只需要
提取</
浏览 1
修改于2018-06-20
得票数 1
回答已采纳
21
回答
如何从
PDF
文件中
提取
文本?
我正在尝试使用Python
提取
包含在文件中的文本。我使用的是模块,并具有以下脚本:
pdf
_file = open('sample.
pdf
')number_of_pages = read_
pdf
.getNumPages()page_content = page.extractText
浏览 326
修改于2018-10-06
得票数 266
1
回答
无法使用preg_match
提取
文本
我有这样的代码:$a = new
PDF
2Text();$a->decodePDF(); print
浏览 1
修改于2013-03-07
得票数 0
回答已采纳
1
回答
使用关键字directory ()函数。它不会使用R执行正确的计数
我正在使用pepa函数来
提取
pdf
文档中包含单词“人工智能”的段落。但是,我不会
提取
包含这些单词的所有段落。我错过的要少得多。它不能从文档的末尾
提取
这些内容。dirct <- directory_path result <- keyword_directory(dirct, keyword = 'Artificial Intelligence', split_
pdf
https://www.telefonica.com/documents
浏览 15
修改于2020-09-24
得票数 0
1
回答
如何使用PyPDF2
提取
文本几何?
我有
pdf
文档。我很清楚如何从中
提取
文本。from PyPDF2 import PdfReader
pdf
= PdfReader(
pdf
_path)page_1_object.extractText().split(&qu
浏览 6
提问于2022-08-26
得票数 0
回答已采纳
1
回答
如何引用内置到Windows中的
PDF
IFilter (dll)接口以通过Classic ASP
提取
pdf
文档的文本和属性
我想
提取
文本和属性(作者、标题等)一个
PDF
文件。这个是可能的吗?如果是这样,我该如何开始呢?
浏览 1
修改于2017-10-16
得票数 0
2
回答
使用Python从
pdf
中
提取
图像
我们如何从
PDF
中
提取
图像(仅图像)。 我使用了很多在线工具,它们都不是通用的。在大多数
PDF
中,它工具是整个图像的屏幕截图,而不是图像。sg.inflibnet.ac.in:8080/jspui/bitstream/10603/121661/
9
/09_chapter链接->
PDF
4.
pdf
浏览 31
修改于2019-05-30
得票数 1
3
回答
在带有正则表达式的文件名末尾
提取
版本号
我试图使用一个正则表达式
提取
版本号:filename.1.0.doc --> 1.0filename.3.0.docx --> 3.0[0-
9
]+\.[0-
9
]+\.(docx|
pdf
|rtf|doc|docm)$ 但我不想分机。所以我搜索的是在字符串中最后一个点出现之前的[0-
9
]+\.[0-<
浏览 0
提问于2019-05-23
得票数 1
回答已采纳
1
回答
从包含两列的
PDF
中很好地
提取
文本
我正在尝试
提取
这些公司的年报文本。它的设计是在两列的大部分。所以我不知道如何正确地
提取
它,因为在使用pdftools包的R I中,我
提取
第一列的第一行紧邻第二列的第一行,而不是第一列的第二行。这是我的代码: library(pdftools) readpdf<-
pdf
_text("https://www.telefonica.com/documents/153952/13347920/2019-Telefonica-Consolidated-Ma
浏览 22
提问于2020-09-18
得票数 2
1
回答
从python中的parsed_
pdf
[content]中
提取
特定行
嗨,我正在使用tikka包从
pdf
中
提取
文本,但我想从
提取
的内容中
提取
第5行,我尝试了使用其他
pdf
提取
模块,但是我只使用tikka的那种
pdf
可以解析它。parsed_
pdf
= parser.from_file("mypdf.
pdf
") print(parsed_
pdf
[
浏览 2
提问于2021-06-01
得票数 0
4
回答
如何
提取
由空格分隔的字符串的一部分?
如果我有像这样的字符串:我想把它的第一部分
提取
出来如何在C++/CLI或C#中做到这一点?
浏览 0
提问于2011-10-16
得票数 1
回答已采纳
4
回答
Regex可以匹配吗?
我有这些文件名:ZATR0018_2018.
pdf
其中ZATR后面的4位数字是杂志的发行号。用这个正则表达式:我可以
提取
8,18或218,但是我想保留最少2位和最大3位,所以结果应该是08,18和218。 怎么可能这样做呢?
浏览 9
修改于2017-12-25
得票数 0
回答已采纳
1
回答
从传入邮件中
提取
(并上载)附件
您知道如何从传入的邮件中
提取
附件吗?我有一份
PDF
文件附在这条信息上。这就是我在控制台中看到的: ['contentType':'application/
pdf
; name="TransakciaMK.
pdf
"', 'filename':'TransakciaMK.
pdf
', 'disposition':'attachment', 'content
浏览 1
修改于2016-12-14
得票数 0
回答已采纳
1
回答
pdfminer3不是从彩色
pdf
页面中
提取
文本,如何将
pdf
页面转换成灰度?
我正在使用pdfminer3库从
pdf
中
提取
文本。但是它在彩色页面中的效果并不好。但是从有色区域
提取
的数据如下:我也试过了
pdf
管道工,但它也没有给我正确的数据。或者有人能建议我从图像中<
浏览 2
修改于2020-12-26
得票数 0
1
回答
搜索存储在Google上的
pdf
文档中的特定字符串
我的项目是发送带有
pdf
附件的电子邮件。我所有的
pdf
是在一个文件夹中的谷歌驱动器,我需要寻找特定的
pdf
相关的特定客户。
pdf
只包含文字和客户号码。因此,我需要一个脚本,以
提取
文本从
pdf
到字符串,并研究这个字符串,以确定它是否包含客户编号。function myFunction() { var file = DocsList.getFileById('my <e
浏览 4
修改于2014-05-30
得票数 0
1
回答
Google到文本页编号限制
我有一些
pdf
文件在一个文件夹上的谷歌驱动器,我试图转换
pdf
到谷歌文档,并
提取
特定的文本。
PDF
有200多页,但即使是google.doc文件也限制在80页以内。您可以运行OCR的页数有限制吗?const FOLDER_ID = "1rlAL4WrnxQ6pEY2uOmzWA_csUIDdBjVK"; //Folder ID of all PDFs const SS = "1XS_YUUdu
9
FK_bBumK3lFu
9
fU_M
9
浏览 7
修改于2022-07-27
得票数 0
1
回答
使用itextsharp
提取
c#中的阿拉伯文本
{ ITextExtractionStrategy
浏览 4
修改于2018-07-11
得票数 4
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券