搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

使用ItextSharp读取C#中的PDF列

在我的程序中，我从PDF文件中提取了文本，并且运行良好。ItextSharp从PDF中逐行提取文本。但是，当PDF文件包含2列时，提取的文本就不正常了，因为每行连接两列。我的问题是:如何逐列提取文本？下面是我的代码。PDF文件是阿拉伯语的。对不起，我的英语不太好。PdfReader reader = new PdfReader(@"D:\test pdf\Blood Journal.pdf");

浏览 1修改于2014-08-26得票数 0

21回答

如何从PDF文件中提取文本？

我正在尝试使用Python提取包含在文件中的文本。我使用的是模块，并具有以下脚本：pdf_file = open('sample.pdf')number_of_pages = read_pdf.getNumPages()page_content = page.extractText

浏览 326修改于2018-10-06得票数 266

1回答

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

我正在尝试使用Python3和PyPDF2库将PDF转换为文本文件。但PDF主要是用韩语编写的，所以在处理PDF文本之前，它似乎是用'utf-8‘编码的。但是，无论是使用"open“功能读取PDF文件，还是使用"codecs”功能读取PDF文件，似乎都无法正确提取‘utf-8’编码的文本。你有什么想法可以使用Python3和其他相关的Python库从PDF文件中提取文本吗？提前感谢！(&

浏览 0提问于2018-12-17得票数 1

1回答

如何将PDF文件名中的日期提取为数据集？

我正在尝试从多个PDF中提取日期，以便在dataset中创建日期列。下面是我刚刚拥有的包含文件名的数据集。# A tibble: 260 x 1 <chr> 1 ./2012.01.18.pdf 2 ./2012.02.07.pdf3 ./2012.03.12.pdf</em

浏览 6提问于2022-11-27得票数 1

回答已采纳

3回答

使用正则表达式从给定的链接列表中提取pdf链接

但我只需要提取PDF链接。/abcdef/higjkl/Thisisthe-required-document-link-4ea4-8f1c-dd36a1f55d6f.pdf" target="_blank"><img alt=/Include/images/pdf.png"/></a>'] 因此，我只需要提取从'htt

浏览 1修改于2018-06-20得票数 1

回答已采纳

2回答

Apache PDFBox删除字符之间的空格。

我们使用PDFBox从PDF中提取文本。在文本提取之后，我们得到以下文本：(空格加在'，‘和’8‘之间) PDFTextStripp

浏览 2修改于2015-04-10得票数 6

回答已采纳

1回答

如何将编码文本转换为正文(不使用编码创建的特殊字符)

我将从一系列PDF文件中提取文本来进行主题建模。从PdF文件中提取文本后，我将把每个PDF文件的文本保存到一个.txt文件或.doc文件中。为此，我遇到了一个错误，即我应该添加.encode('utf-8')来将提取的文本保存到.txt文件中。所以，我添加了txt = str(txt.encode('utf-8'))。我应用了另一种方法来避免保存为.txt格式，我打算将提取的文本保存在数据框中，

浏览 21修改于2021-06-30得票数 1

回答已采纳

1回答

PowerShell，itextsharp提取的文本不再具有可读性(脚本以前很好)

我使用PowerShell脚本和itextsharp从记帐PDF中提取一些数据，以组织was服务器数据库上的重命名文件(带有提取的数据).直到最近，一切都很顺利：!9H#SH!#!T !a!ST^ETU+.0’$=Q$;L?; $page++){ $text=[iTextSharp.text.pdf.parser.PdfTextExtractor]:

浏览 2修改于2021-07-22得票数 0

2回答

使用批处理文件获取文件名的步骤

我已经写了批处理文件来提取文件夹中多个文件的最后8个字符。但是批处理文件没有给出期望的结果。我的文件夹由下面提到的文件名sub_rachit_01.pdf和sub_kapoor_02.pdf组成。我想从文件夹中提取rachit_01和kapoor_02作为变量。批处理文件切碎如下： SETLOCAL ENABLEDELAYEDEXPANSIONfor

浏览 0提问于2018-02-01得票数 0

2回答

C/C++中从True type字体文件中提取Unicode字符值的编程实现

我正在尝试从PDF中包含的嵌入式true type字体文件中提取UTF-8字符值。有没有人知道这样做的方法？PDF中的值可能类似于'2%dd！w!|<~‘，在由TTF中的相应字形表示的PDF中，这将以'Hello World’结束。我希望能够在这里提取wchar值。这个是可能的吗？TTF中是否存在每个字符的UTF-8值？

浏览 0提问于2012-07-19得票数 1

回答已采纳

1回答

加速tessearct

我一直在linux上使用tesseract (Ver3)从扫描的pdf文件中提取文本。问题是整个过程很慢，非常慢。例如，提取这个() 20页文档需要514秒(8+分钟)tesseract tmp.tif out.txt 请注意，288dpi是必需的，否则t

浏览 1提问于2011-05-02得票数 1

1回答

如何使用PyPDF2提取文本几何？

我有pdf文档。我很清楚如何从中提取文本。from PyPDF2 import PdfReaderpdf = PdfReader(pdf_path)page_1_object.extractText().split(&qu

浏览 6提问于2022-08-26得票数 0

回答已采纳

1回答

如何在不下载Python的情况下从url中提取文本pdf

我目前正在使用requests.get从API中提取pdf。我不想下载它们，只是想从它们中提取文本。response_pdf = requests.get(url, auth=TokenAuth(key)) codec = 'utf-8'

浏览 0提问于2019-09-13得票数 0

回答已采纳

2回答

无需加载完整文档即可获取PDF* XMP元数据*

使用iTextSharp或iText等库，您可以通过PdfReader从PDF文档中提取元数据： using (var reader = new PdfReader(pdfBytes))} 这些类型库完全解析PDF文档，然后才能添加元数据。在我的例子中，这将导致系统资源的高使用率，因为我们每秒收到许多请求，并且PDF很大。有没有一种方法可以从PDF中提取元数据，而不必

浏览 66提问于2021-11-08得票数 1

回答已采纳

1回答

如何使用pdftotext格式化纯文本标记？

我正在使用pdftotext从PDF文件中提取普通内容。pdftotext -layout -enc UTF-8 有没有其他方法可以做到这一点？

浏览 1修改于2015-01-14得票数 1

1回答

提取pdf内容在python中不起作用。

然后我试着提取pdf中的表格，然后用熊猫把这些摘录的文本写进csv。但问题是，这些摘录的文本是混乱或破损的孟加拉语文本，这是没有用的。如何从这些pdfs中正确地提取文本并写入csv。) as open_pdf_file: read_pdf = PyPDF2.PdfFileReader(open_pdf_file) if read_pdf.isEncrypted因此，很难从该pdf

浏览 6修改于2022-07-23得票数 -1

3回答

wkhtmltopdf在nodejs中的AWS Lambda上生成空白pdf文件

wkhtmltopdf在nodejs中的AWS Lambda上生成空白pdf文件。 exec(`echo '${onelineHtml}' | ${wkhtmltopdf} --encoding utf-8 - ${outputPath}`, (err<html lang="ja"> <h

浏览 0提问于2018-02-26得票数 0

2回答

用JavaScript从PDF中提取图像

我想写的JavaScript代码，以提取所有的图像文件从一个PDF文件，可能会得到他们的JPG或一些其他图像格式。已经有一些用于读取PDF文件的JavaScript代码，例如在PDF查看器中。files || files.length === 0) // Read the local file into a Uint8Array.fileReader.onload = function webViewerChangeFileReaderOnload(evt

浏览 4提问于2013-09-08得票数 10

1回答

如何从PDF中提取音乐符号？

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.e

浏览 5提问于2019-07-22得票数 0

回答已采纳

1回答

Scipy.stats t矩提取问题

我正在尝试从一个学生中提取斜度和峰度，这是我对一些非正常数据的拟合。print("Normal mean is {0:.8f(-1, 1, dx) nu, mu_t, s

浏览 2修改于2019-08-04得票数 0

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

使用ItextSharp读取C#中的PDF列

如何从PDF文件中提取文本？

如何使用Python3和PyPDF2将unicode编码的PDF文件转换为文本

如何将PDF文件名中的日期提取为数据集？

使用正则表达式从给定的链接列表中提取pdf链接

Apache PDFBox删除字符之间的空格。

如何将编码文本转换为正文(不使用编码创建的特殊字符)

PowerShell，itextsharp提取的文本不再具有可读性(脚本以前很好)

使用批处理文件获取文件名的步骤

C/C++中从True type字体文件中提取Unicode字符值的编程实现

加速tessearct

如何使用PyPDF2提取文本几何？

如何在不下载Python的情况下从url中提取文本pdf

无需加载完整文档即可获取PDF* XMP元数据*

如何使用pdftotext格式化纯文本标记？

提取pdf内容在python中不起作用。

wkhtmltopdf在nodejs中的AWS Lambda上生成空白pdf文件

用JavaScript从PDF中提取图像

如何从PDF中提取音乐符号？

Scipy.stats t矩提取问题

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐