在比较两个PDFS时,我试图提取这些差异。我附上了一张图片来一瞥PDF。

我已经提取了两个PDfs之间的逐行差异.我还逐字逐句地提取了差异。但这些词并没有按正确的顺序提取。我用下面的代码逐字提取.
for f, s in zip(changed_lines, deleted_lines):
if f != s:
changed_words = set(f.split()) - set(s.split())这里,changed_lines是PDF1中的行,而不是PDF2中的行。deleted_lines是PDF2中的线条,而不是PDF1中的线条。在changed_words中,你提取的词是不整齐的。
问题:我需要按照PDF格式的顺序提取单词。
发布于 2022-08-03 08:16:02
集合是无序的,因此不能保持提取它的顺序。另外,一个集合将删除同一行中的重复项。
为了保持同样的秩序,你必须找到另一种方法。一种方法是迭代f和s并通过word检查相似性。花药可以是一个热编码(将每个唯一的单词转换为一个数字),然后在一个热编码向量之间执行向量减法,并检查数字之间的差异!= 0。
发布于 2022-10-10 14:25:11
您可以使用PDFCompareTrueDiff https://pypi.org/project/PDFCompareTrueDiff/库来比较两个pdf文件。
https://stackoverflow.com/questions/73218297
复制相似问题