问给定两个多变量数据集，识别代表同一实体的记录，这些记录略有不同。
EN

Stack Overflow用户

提问于 2016-10-12 18:22:50

回答 1查看 64关注 0票数 1

让我们以两个数据源为例，数据大小分别为"m“和"n”。这两个数据集都是具有相同架构但数据不同的SQL表。我们的目标是“标记”(数据集之间的)模糊匹配，这些匹配非常相似，足以考虑“完全相同的”。

CREATE TABLE player(
    id Integer,
    fname VARCHAR(64),
    lname VARCHAR(64),
    birth_dt datetime,
    weight Integer
)

虽然大多数组合(m*n)将不是匹配的，但我们希望标记如下“相似”的匹配：

{"fname": "John", "lname": "Smith", "birth_dt": "6/6/91", "weight": 220}
{"fname": "Jack", "lname": "Smith", "birth_dt": "6/6/91", "weight": 210}

是否有任何工具(开源或非开源)能够很好地识别和标记这些“匹配”？

发布于 2016-10-13 16:29:01

这是"记录链接“的一个问题，这个关键字将帮助您找到关于这个问题的大量文献。

开源的python库德杜普提供了一种全面的方法。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/40005758

复制

相似问题

问给定两个多变量数据集，识别代表同一实体的记录，这些记录略有不同。EN