首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Spark Structured-Streaming -未聚合数据上的水印

Spark Structured-Streaming -未聚合数据上的水印
EN

Stack Overflow用户
提问于 2020-04-13 18:58:41
回答 1查看 294关注 0票数 2

我正在尝试从结构化流式数据集中删除延迟数据。

使用spark的withWatermark函数没有帮助,延迟的数据不会被删除。

我的数据集在event time列上没有聚合,所以这可能是原因,根据sparks internals,水印用于状态管理,但我想使用它来删除延迟数据。

有没有其他方法可以强迫spark尊重水印?

在日志中,我看到应用了水印(我之前正在发送数据以更新水印):

代码语言:javascript
复制
"eventTime" : {
"avg" : "2020-04-08T14:10:01.532Z",
"max" : "2020-04-12T02:10:01.532Z",
"min" : "2020-04-05T02:10:01.532Z",
"watermark" : "2020-04-09T02:00:01.532Z"
}

但旧的事件仍然会写入结果中。

EN

回答 1

Stack Overflow用户

发布于 2020-07-15 23:41:57

我遇到了同样的问题。我在文档中看到,不能保证Spark会丢弃旧数据。Here is the snapshot of official document

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61186393

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档