腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
Pdf
提取
文本
中选择
pdf
文件的路径。private static final int DIALOG_LOAD_FILE = 1000;Button b1 = (Button; } tv.setT
浏览 0
修改于2018-04-26
得票数 0
回答已采纳
1
回答
从a
pdf
/a
提取
文本
你知道有什么库可以让我
提取
一个A类型的
pdf
格式的文本,然后用PHP阅读它吗? 我试过很多库,但没有一个能够读懂我需要帮助的内容
浏览 2
修改于2019-08-06
得票数 2
1
回答
pypdf不从
pdf
提取
表格
我使用pypdf从
pdf
文件中
提取
文本。问题是
pdf
文件中的表没有被
提取
出来。我也尝试过使用pdfminer,但我遇到了同样的问题。
浏览 0
提问于2013-07-08
得票数 1
回答已采纳
2
回答
PDF
提取
时忽略表格
现在,我从用户指定的
PDF
文件中
提取
此输入。我正在使用PdfBox进行文本
提取
。我遇到的问题是,
PDF
文件可能包含表格、方程式和特殊符号,所以PdfBox
提取
的文本在很多地方都包含垃圾。我想知道
PDF
是否有特定的表格格式,这样我就可以到达根级别,并在
提取
时排除它们。此外,在许多情况下,
提取
的文本包含呈现为“?”的未知字符。虽然在实际的
PDF
中,它们看起来是普通的字母表。简而言之,我想要的是从
PDF
文件中
提取<
浏览 2
提问于2012-03-27
得票数 0
1
回答
PDF
提取
未完成
我试图从
PDF
文件中
提取
文本:,但是我从一个页面中得到的文本还不到一半。PdfTextExtractor.GetTextFromPage(reader, 1, new SimpleTextExtractionStrategy()) 该文件最初是从Microsoft Reporting Service (我没有访问权限)中生成的,我
提取
了一个页面用于测试文本
提取
浏览 2
修改于2016-11-18
得票数 1
1
回答
Camelot
Pdf
提取
失败解析
我遇到卡米洛特图书馆的问题我想问题是字符串是如此长的到达表边框。
PDF
输出布局我的输出被解析为"70\/140 A ALT5860\n12 V\n90 A""ALT4945\n24 V 70\/140 A" &
浏览 1
修改于2019-11-21
得票数 3
1
回答
PDF
提取
的文本似乎不可读
情景:我有一个使用版本1.6的
PDF
。在
PDF
中,有几个流。在这些流中有压缩文本(Flate),所以我对这些流进行了解压缩。在此之后,我
提取
了相应的解压缩流的Tj部分。此外:是否可以从这些字符串中
提取
纯文本,或者我是否需要进一步的信息来
提取
纯文本? 进一步研究:
PDF
,我尝试分析iTextSharp生成的地方(似乎是用于生成
PDF
的C#库)。
浏览 1
提问于2017-02-14
得票数 1
回答已采纳
3
回答
带
PDF
提取
的NoClassDefFoundError MimeTypeException
尝试对
PDF
文件使用更新/
提取
时出现异常我可以浏览到solr/adminuprefix=attr_&fmap.content=attr_content&commit=true" -F "file=/path/to/my.
pdf
"java.lang.NoClassDefFoundError
浏览 5
修改于2011-12-09
得票数 0
回答已采纳
1
回答
如何使用CAM::
PDF
提取
所有页面?
/perl/bin/perl -wuse CAM::
PDF
::PageText; my $pageone_tree = $
pdf
->getPageContentTree(2); $text = CAM::
PDF
::PageText->render($p
浏览 10
修改于2015-08-01
得票数 2
2
回答
PDF
:
提取
与字体关联的文本(linux)
我试图解决的一般问题是确定大量
PDF
中有多少文本与不同的字体相关联。我知道我可以使用pdftotext从
PDF
中
提取
文本,使用pdffonts
提取
字体信息,但我不知道如何将它们链接在一起。我有100,000+的
PDF
文件要处理,所以需要一些我可以针对程序(我不介意一个商业解决方案)。
浏览 15
提问于2018-08-24
得票数 1
1
回答
将带格式的文本从
pdf
提取
为html
我需要将
PDF
文档转换为HTML。我可以在下面实现的地方。2-
提取
图像5-将配色方案应用于HTML页面。 任何帮助都将不胜感激。
浏览 0
修改于2013-02-26
得票数 0
1
回答
PDFBox 1.3.1中的
PDF
提取
问题
在使用apache PDFBox从
PDF
中
提取
数据时,我面临一些问题。使用PDFBox 1.1版本,我能够正确地
提取
数据。但是相同的代码提供了版本1.3.1的不同输出。只有少数
PDF
,我面临这个问题。代码样本PDFTextStripper stripper = new PDFTextStripper
浏览 1
提问于2011-03-11
得票数 0
1
回答
PDF
提取
中缺少表格布局信息
我已经研究了从
pdf
中
提取
文本/数据,并使用了其他一些堆栈溢出答案来帮助我,我设置的是Tika通过一个自定义的ContentHandlerDecorator解析
pdf
,它使用sax事件来解析内容。我遇到了一个问题,当在
pdf
查看器中查看
pdf
时,它包含一个按行和列排列的数据表,但这些信息似乎不是从
PDF
中开始
提取
的,或者是我不知道如何使用tika / sax找到它。很抱歉我不能提供
pdf
,但我正在寻找任何关于这些额外的格式化
浏览 9
提问于2019-09-11
得票数 1
1
回答
PDF
数据
提取
有没有办法获取扫描的
PDF
图像,并通过突出显示所需的字段来从图像中
提取
数据?我们每天扫描数以千计的房地产契约的
PDF
图像,并希望能够自动化的数据输入过程。我们面临的问题是,没有两件事是相同的。
浏览 0
修改于2015-11-24
得票数 0
8
回答
PDF
表格
提取
我将(相同的)数据保存为GIF图像文件和
PDF
文件,并希望将其解析为HTML或XML。这些数据实际上是我校食堂的菜单。这意味着有一个新版本的文件,必须分析每周!我阅读了一些关于堆栈溢出的文章,并开始尝试将表数据解析为HTML/XML: 我在用PDFBox解析
PDF
文件时得到了最好的结果,但是(因为菜单每周都有变化),它还不够可靠。
浏览 10
修改于2017-05-19
得票数 12
1
回答
pdf
文本
提取
3 begincidrange <8140> <817e> 633 endcidrange 如何为我自己的数据制作一个CMAP?,什么是3中的入门级,<20> <7e>是什么?谁能举个例子
浏览 1
提问于2010-05-23
得票数 3
1
回答
如何用regex进行复杂
pdf
提取
我有一个
PDF
文件,其中包含彩票获奖者,我想
提取
所有中奖根据他们的奖品。/test11.
pdf
") as
pdf
: page_text =
pdf
.pages[i].extract_text
浏览 14
提问于2022-03-19
得票数 0
回答已采纳
1
回答
将数据从
PDF
提取
到Excel
我使用以下VBA将
PDF
数据复制到Excel工作表,并使用Word转换该数据: Dim o AsProgram Files (x86)\Adobe\Acrobat Reader DC\Reader\AcroRd32.exe C:\Users\User Profile Name\Desktop\Book1.
pdf
2.ActiveDocument.Close SaveChanges:=wdDoNotSaveChanges
浏览 0
修改于2018-05-21
得票数 1
1
回答
需要使用Tesseract API实现批量
PDF
提取
我有大量的
PDF
文档,我需要从中
提取
文本。用于进一步处理的
提取
文本。我以线性的方式使用Tesseract API对一小部分文档进行了这一操作,并获得了所需的输出。我已经搜索过,但没有成功地尝试了几个选项,比如: 我通过使用Hadoop Reduce将FileInputFormat类扩展到我自己的PdfInputFormat类来从
pdf
中
提取
文本,为此我使用ApachePDFBox从
PDF
中
提取
文本,但是当涉及到包含图像的扫描-
pdf
时,这个解决方案
浏览 4
提问于2017-06-17
得票数 0
回答已采纳
1
回答
pdfplumber可以为我扫描的
pdf
提取
表格吗?
(我知道pdfplumber主要是针对计算机生成的
PDF
。然而,在我花几天时间从扫描的
PDF
文件中手动输入数据之前,我想我应该问问pdfplumber是否能以某种方式帮助我。)我的问题是:示例:我第一次用pdfplumber解压表格的尝试没有成功。例如:page
浏览 9
提问于2021-11-18
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券