让我们以两个数据源为例,数据大小分别为"m“和"n”。这两个数据集都是具有相同架构但数据不同的SQL表。我们的目标是“标记”(数据集之间的)模糊匹配,这些匹配非常相似,足以考虑“完全相同的”。
CREATE TABLE player(
id Integer,
fname VARCHAR(64),
lname VARCHAR(64),
birth_dt datetime,
weight Integer
)虽然大多数组合(m*n)将不是匹配的,但我们希望标记如下“相似”的匹配:
{"fname": "John", "lname": "Smith", "birth_dt": "6/6/91", "weight": 220}
{"fname": "Jack", "lname": "Smith", "birth_dt": "6/6/91", "weight": 210}是否有任何工具(开源或非开源)能够很好地识别和标记这些“匹配”?
https://stackoverflow.com/questions/40005758
复制相似问题