首页
学习
活动
专区
圈层
工具
发布

为什么说 Pravega 是流处理统一批处理的最后一块拼图?

随着工业物联网、车联网和实时风控等场景爆发,企业对低延迟、高并发的流处理需求日益迫切。5G、容器云与高性能存储的普及,使流处理能在数据产生后毫秒级内产出价值,例如车载反馈、故障告警和欺诈检测,10ms级延迟往往决定商业成败。

然而,流处理虽看似简单——持续、无限地处理数据——但多数企业缺乏支持PB级数据、兼具高吞吐和容错的实时存储引擎。伴随各类定制引擎涌现,系统日益复杂,资源浪费与运维困难并存。当前大数据系统普遍困境在于:计算已是原生流式,存储却非原生流式。

早期以MapReduce为代表的批处理延迟高(分钟至小时级)。为降低延迟,微批处理(如Spark Streaming)缓冲秒级数据计算,但延迟仍不理想。随后原生流处理框架(Storm、Heron、Samza、Kafka Streams)兴起。为兼顾批与流,Lambda架构整合离线与实时双轨,但系统臃肿。后来Kappa架构与Dataflow模型主张“流批一体”,Flink、Spark Structured Streaming等实现统一计算,然而存储层面仍割裂:批处理依赖HDFS,流处理依赖消息队列,历史数据回溯困难。

Pravega应运而生,它是专为流设计的原生存储系统,支持无限、持久、仅追加的字节流,提供尾读与追赶读能力,满足批流统一访问。其特性包括:基于路由键的动态分段机制,实现读写独立弹性伸缩;通过分层存储确保持久性;保证顺序、一致性与事务性写入,支持仅一次处理,并与Flink深度集成,实现端到端事务。

Pravega补齐了Kappa架构的存储拼图,构建统一存储与计算的闭环。它使流处理系统具备弹性、微服务化能力,可无缝从原型扩展到生产。未来,Pravega将持续演进,推动流式存储成为新一代大数据基础设施。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdBhnp-dto-rbf8dQiMoE4ZA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券