我想根据diff()函数的结果进行过滤,并使用data.table的效率。
DT[diff(timestamp) > 10]不会做这项工作,因为结果集比源文件短。即使创建一个筛选器和一个子设置,也至少会创建一个警告(我想防止)。
DT[, filter := diff(timestamp) > 10]我可以使用dplyr或其他工具,但我想要data.table的效率。有什么建议吗?
发布于 2018-08-03 16:24:15
正如罗兰指出的那样,错误源于diff()的性质。当应用于长度为n的向量时,它将返回长度为n-1的向量。
示例:
diff(c(2, 4, 9))
[1] 2 5当使用逻辑向量设置data.table子集时,它的行数必须等于向量的长度。因此,可能的解决方案包括:
DT[-1][diff(DT$timestamp) > 10]
DT[c(FALSE, diff(timestamp) > 10)]我可能会这样做:
DT[timestamp - shift(timestamp) > 10]https://stackoverflow.com/questions/51667855
复制相似问题