首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >给定两个多变量数据集,识别代表同一实体的记录,这些记录略有不同。

给定两个多变量数据集,识别代表同一实体的记录,这些记录略有不同。
EN

Stack Overflow用户
提问于 2016-10-12 18:22:50
回答 1查看 64关注 0票数 1

让我们以两个数据源为例,数据大小分别为"m“和"n”。这两个数据集都是具有相同架构但数据不同的SQL表。我们的目标是“标记”(数据集之间的)模糊匹配,这些匹配非常相似,足以考虑“完全相同的”。

代码语言:javascript
复制
CREATE TABLE player(
    id Integer,
    fname VARCHAR(64),
    lname VARCHAR(64),
    birth_dt datetime,
    weight Integer
)

虽然大多数组合(m*n)将不是匹配的,但我们希望标记如下“相似”的匹配:

代码语言:javascript
复制
{"fname": "John", "lname": "Smith", "birth_dt": "6/6/91", "weight": 220}
{"fname": "Jack", "lname": "Smith", "birth_dt": "6/6/91", "weight": 210}

是否有任何工具(开源或非开源)能够很好地识别和标记这些“匹配”?

EN

回答 1

Stack Overflow用户

发布于 2016-10-13 16:29:01

这是"记录链接“的一个问题,这个关键字将帮助您找到关于这个问题的大量文献。

开源的python库德杜普提供了一种全面的方法。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40005758

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档