大数据处理基本过程

文章来源：企鹅号 - 四季豆33

初入大数据领域一个月，记录基础知识与整体架构。

大数据概述

指常规软件无法处理的海量、高增长、多样化数据集，需新处理模式。5V特点：大量、高速、多样、低价值密度、真实。

处理流程：采集清洗加工展现。

采集方式

批采集：MaxCompute每日抓取数据库快照。

实时接口：DataHub高吞吐低延迟，通过SDK记录后台调用并持续写入。

前端埋点：按业务需求设置，经流传输进入数仓。

清洗/预处理：如IP转地址、过滤脏数据。

数据处理

离线批处理（MaxCompute/DataWorks）：托管PB级数仓，编写脚本定时调度，产出日报。

实时处理（Storm）：Spout读取数据源，通过Stream传递Tuple，Bolt执行逻辑（需自行持久化），组合为Topology提交运行。

数据展现

使用DataV：

直连数据库，SQL查询并格式化；

或通过API接口获取数据渲染。

心得：初期易重功能轻数据，需建立完整可复用的维度，便于后续KPI组合。采用MVP思路快速迭代，类似敏捷开发。当前为初步记录，欢迎指正。

相关快讯