腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何将
PDF
文件名中的日期
提取
为数据集?
我正在尝试从多个
PDF
中
提取
日期,以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.
pdf
2 ./2012.02.07.
pdf
3 ./2012.03.12.
pdf</em
浏览 6
提问于2022-11-27
得票数 1
回答已采纳
2
回答
用PyMuPDF逐页逐行
提取
pdf
中的文本
我必须从现有的
PDF
文档中
提取
文本。目前,我使用PyMuPDF模块来实现这一点。总体而言,它工作得很好,而且速度非常快。问题是,这个工具会用新的换行符替换
pdf
文档中的所有水平制表符(例如,在headings:
5
\t Topic中)。由于我必须逐行
提取
文本,这对我来说是非常不切实际的。有没有人知道如何解决这个问题,或者知道另一种方法来逐页逐行
提取
文本页面?我还尝试了tika (这里我不能分页
提取
文本)和PyPDF2 (这太可怕了:对于任何格式化的文本(比如粗体),它
浏览 17
修改于2019-05-04
得票数 1
1
回答
PyPDF2
提取
空白文本
我试图从PyPDF2中
提取
文本,但它正在从
PDF
中
提取
空白文本。
PDF
是文本格式的,而不是基于图像的。有没有办法对
pdf
进行泛化,使其
提取
文本?因为我不想改变这个库,我的整个代码都依赖于它。在这里找到
pdf
:https://drive.google.com/file/d/1aoWtxNhOKwFw2xbBZgv3gzZPOvt
5
Ovhc/view?usp=sharing import PyPD
浏览 22
修改于2021-02-01
得票数 0
1
回答
从python中的parsed_
pdf
[content]中
提取
特定行
嗨,我正在使用tikka包从
pdf
中
提取
文本,但我想从
提取
的内容中
提取
第
5
行,我尝试了使用其他
pdf
提取
模块,但是我只使用tikka的那种
pdf
可以解析它。parsed_
pdf
= parser.from_file("mypdf.
pdf
") print(parsed_
pdf
浏览 2
提问于2021-06-01
得票数 0
1
回答
如何使用R库遍历多个
pdf
文件
我有一个任务来读取多个
pdf
文件,并
提取
页眉和页脚。 下面的代码帮助我从一个文件中没有任何问题地获取页眉和页脚,但我想对多个文件执行相同的操作并
提取
数据。请给我建议。library(pdftools)files<- list.files(pattern='
pdf
$')
pdf
_22 <-
pdf
_t
浏览 30
提问于2021-01-19
得票数 0
回答已采纳
1
回答
是否有一种方法可以搜索特定关键字的
pdf
并显示与该关键字相关联的值?
假设我得到了几个关键字,而这些关键字都在
PDF
文件中。是否有方法
提取
与关键字相关的值?我使用pdfminer读取
PDF
文件并将其转换为文本文件。我有两个问题- 有些答案建议使用OCR,但是如何才能读取值呢?一些人还建议使用机器学习/深度学习算法,该算法应该确定
PDF<
浏览 1
修改于2019-01-07
得票数 0
21
回答
如何从
PDF
文件中
提取
文本?
我正在尝试使用Python
提取
包含在文件中的文本。我使用的是模块,并具有以下脚本:
pdf
_file = open('sample.
pdf
')number_of_pages = read_
pdf
.getNumPages()page_content = page.extractText
浏览 326
修改于2018-10-06
得票数 266
1
回答
将带格式的文本从
pdf
提取
为html
我需要将
PDF
文档转换为HTML。我可以在下面实现的地方。2-
提取
图像
5
-将配色方案应用于HTML页面。 任何帮助都将不胜感激。
浏览 0
修改于2013-02-26
得票数 0
1
回答
如何从多个
PDF
文件中
提取
以预定义字母表开头的特定行
下面的代码帮助我从目录中拉出每个
PDF
文件的第一页。library(pdftools) lapply(files, function(x) strsplit(
pdf
_text(x), "\n")[[1]]) -> result 现在我想从这些页面中
提取
特定的行例如:我有这行“源程序: lafaf_sfafatfga.sas”在
PDF
中,现在我只想
提取
这一行,类似地,我想
提取
至少
5
行,每行以不同的单词或字母开头。所以输出应该只有我要求的
浏览 15
提问于2021-01-19
得票数 0
回答已采纳
2
回答
如何使用PyPDF2按正确的顺序从
PDF
中
提取
文本?
我目前正在做一个项目,以
提取
PDF
的内容。代码运行平稳,我可以
提取
文本,但
提取
的文本没有正确的顺序。代码以一种奇怪的方式
提取
文本。课文的顺序到处都是。它不会自上而下,而且真的令人困惑。作为参考,这是我目前正在测试的
PDF
文件(第
5
页): reader= PyPDF2.PdfFile
浏览 8
提问于2021-05-16
得票数 0
回答已采纳
3
回答
如何使用ABCPdf.NET从
PDF
文件的所有页面
提取
文本?
如何使用ABCPdf.NET工具从
PDF
文件中
提取
内容文本?我尝试了GetText方法,但没有
提取
内容: Response.Write(xmlContents); d
浏览 0
修改于2012-06-12
得票数 4
回答已采纳
2
回答
Apache PDFBox删除字符之间的空格。
我们使用PDFBox从
PDF
中
提取
文本。 在文本
提取
之后,我们得到以下文本:(空格加在',‘和’8‘之间) PDFTextStripper pdfStr
浏览 2
修改于2015-04-10
得票数 6
回答已采纳
3
回答
字符串行在位置n=4上匹配,需要从位置n+2
提取
值
我正在从
PDF
中
提取
数据:
5
XZXZXZXZXZXZXwith pdfplumber.open(file) as
pdf
: text = page.extract_text() for i, li
浏览 21
修改于2021-02-23
得票数 0
回答已采纳
2
回答
使用python从扫描的
Pdf
中
提取
pdf
数据
我用tesseract ocr从扫描的
pdf
文件中
提取
数据,我可以
提取
数据,但精度不好。在很多地方,它显示了错误的数据,所以我可以通过python获得100%准确的数据。首先,我将
pdf
转换为jpg格式,然后使用tesseract模块从图像中
提取
数据。Image text=(pytesseract.image_to_string(Image.open(r"C:\Users\sumesh\Desktop\ip\ip\
pdf
11.jpg&qu
浏览 11
修改于2019-08-22
得票数 1
1
回答
如何避免在python中
提取
PDF
文件中的小图像元素?
我正在尝试从这个
PDF
文件中
提取
所有的图片:file = fitz.open("example.
pdf
") page = len(file) image_list =
pdf
.getPageImageList(p
浏览 31
提问于2021-06-10
得票数 0
回答已采纳
2
回答
PDF
文档中的总页数
MATLAB提供了函数,它允许我们从
PDF
文件中读取文本以及其他文件格式,并将
提取
的文本保存为字符串。str = extractFileText("exampleSonnets.
pdf
", 'Pages', [3
5
7]); 然而,这个函数并没有提供一种方法
浏览 24
修改于2019-01-13
得票数 1
回答已采纳
2
回答
从
pdf
文件中
提取
单词而不是字母?
我使用less,它使用pdftotext从less my.
pdf
的
pdf
文件中
提取
文本。这样,一些单词的字母由空格与
pdf
文件隔开。CH APTE R 2
5
T E ST IN G WE B A P P LIC AT IO N S 540 一些人声称Adobe没有问题。我没有程序来证实这一点。但是我想知道Linux中的哪个软件程序可以正确地
提取
单词呢?
浏览 0
修改于2015-02-16
得票数 1
1
回答
如何从
PDF
中
提取
文本,并得到页面坐标和字符串位置之间的转换?
我希望从
PDF
中
提取
纯文本,并通过一个命名实体识别函数来运行它,该函数将显示文本和字符串位置。谢谢!
浏览 9
提问于2022-06-17
得票数 1
回答已采纳
1
回答
在uipath中不工作的锚基用于
pdf
提取
我希望从
PDF
发票中
提取
特定的文本和数字,其中之一是总金额。事情是,的总金额的立场不断变化从
pdf
到
pdf
的是根据有多少个项目。如果有很多项目,那么总金额字段将在
pdf
中较低,如果项目的数量较少,那么总金额将更高在
pdf
中。参考图见下图。发票中只有两个项目,所以总字段位于较高的位置。那我该怎么
提取
呢?我试过使用Anchor base,但它不起作用!这是我迄今所做的工作: 1.)指定一个for循环来打开文件夹中的每个
pdf
。2.)对于每一个<
浏览 18
修改于2022-03-02
得票数 0
回答已采纳
1
回答
扫描时CGPDFScanner - \x15字符
我试图在中
提取
第
5
页的文本。当遇到这个字符时,当前字体是上面提到的字体,它没有从
pdf
字符串中
提取
文本。
浏览 5
提问于2015-07-07
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券