首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何按顺序提取单词?

如何按顺序提取单词?
EN

Stack Overflow用户
提问于 2022-08-03 08:08:07
回答 2查看 60关注 0票数 0

在比较两个PDFS时,我试图提取这些差异。我附上了一张图片来一瞥PDF。

我已经提取了两个PDfs之间的逐行差异.我还逐字逐句地提取了差异。但这些词并没有按正确的顺序提取。我用下面的代码逐字提取.

代码语言:javascript
复制
for f, s in zip(changed_lines, deleted_lines):
    if f != s:
        changed_words = set(f.split()) - set(s.split())

这里,changed_lines是PDF1中的行,而不是PDF2中的行。deleted_lines是PDF2中的线条,而不是PDF1中的线条。在changed_words中,你提取的词是不整齐的。

问题:我需要按照PDF格式的顺序提取单词。

EN

回答 2

Stack Overflow用户

发布于 2022-08-03 08:16:02

集合是无序的,因此不能保持提取它的顺序。另外,一个集合将删除同一行中的重复项。

为了保持同样的秩序,你必须找到另一种方法。一种方法是迭代f和s并通过word检查相似性。花药可以是一个热编码(将每个唯一的单词转换为一个数字),然后在一个热编码向量之间执行向量减法,并检查数字之间的差异!= 0。

票数 0
EN

Stack Overflow用户

发布于 2022-10-10 14:25:11

您可以使用PDFCompareTrueDiff https://pypi.org/project/PDFCompareTrueDiff/库来比较两个pdf文件。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/73218297

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档