文章/答案/技术大牛

发布

社区首页 >问答首页 >如何按顺序提取单词？

问如何按顺序提取单词？
EN

Stack Overflow用户

提问于 2022-08-03 08:08:07

回答 2查看 60关注 0票数 0

在比较两个PDFS时，我试图提取这些差异。我附上了一张图片来一瞥PDF。

我已经提取了两个PDfs之间的逐行差异.我还逐字逐句地提取了差异。但这些词并没有按正确的顺序提取。我用下面的代码逐字提取.

for f, s in zip(changed_lines, deleted_lines):
    if f != s:
        changed_words = set(f.split()) - set(s.split())

这里，changed_lines是PDF1中的行，而不是PDF2中的行。deleted_lines是PDF2中的线条，而不是PDF1中的线条。在changed_words中，你提取的词是不整齐的。

问题:我需要按照PDF格式的顺序提取单词。

python

arrays

回答 2

Stack Overflow用户

发布于 2022-08-03 08:16:02

集合是无序的，因此不能保持提取它的顺序。另外，一个集合将删除同一行中的重复项。

为了保持同样的秩序，你必须找到另一种方法。一种方法是迭代f和s并通过word检查相似性。花药可以是一个热编码(将每个唯一的单词转换为一个数字)，然后在一个热编码向量之间执行向量减法，并检查数字之间的差异!= 0。

票数 0

Stack Overflow用户

发布于 2022-10-10 14:25:11

您可以使用PDFCompareTrueDiff https://pypi.org/project/PDFCompareTrueDiff/库来比较两个pdf文件。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/73218297

复制

相似问题

问如何按顺序提取单词？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何按顺序提取单词？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何按顺序提取单词？
EN