文章/答案/技术大牛

发布

社区首页 >问答首页 >Spark Structured-Streaming -未聚合数据上的水印

问Spark Structured-Streaming -未聚合数据上的水印
EN

Stack Overflow用户

提问于 2020-04-13 18:58:41

回答 1查看 294关注 0票数 2

我正在尝试从结构化流式数据集中删除延迟数据。

使用spark的withWatermark函数没有帮助，延迟的数据不会被删除。

我的数据集在event time列上没有聚合，所以这可能是原因，根据sparks internals，水印用于状态管理，但我想使用它来删除延迟数据。

有没有其他方法可以强迫spark尊重水印？

在日志中，我看到应用了水印(我之前正在发送数据以更新水印)：

"eventTime" : {
"avg" : "2020-04-08T14:10:01.532Z",
"max" : "2020-04-12T02:10:01.532Z",
"min" : "2020-04-05T02:10:01.532Z",
"watermark" : "2020-04-09T02:00:01.532Z"
}

但旧的事件仍然会写入结果中。

apache-spark

spark-structured-streaming

watermark

回答 1

Stack Overflow用户

发布于 2020-07-15 23:41:57

我遇到了同样的问题。我在文档中看到，不能保证Spark会丢弃旧数据。Here is the snapshot of official document

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61186393

复制

相似问题

问Spark Structured-Streaming -未聚合数据上的水印
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark Structured-Streaming -未聚合数据上的水印EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Spark Structured-Streaming -未聚合数据上的水印
EN