初入大数据领域一个月,记录基础知识与整体架构。
大数据概述
指常规软件无法处理的海量、高增长、多样化数据集,需新处理模式。5V特点:大量、高速、多样、低价值密度、真实。
处理流程:采集清洗加工展现。
采集方式
批采集:MaxCompute每日抓取数据库快照。
实时接口:DataHub高吞吐低延迟,通过SDK记录后台调用并持续写入。
前端埋点:按业务需求设置,经流传输进入数仓。
清洗/预处理:如IP转地址、过滤脏数据。
数据处理
离线批处理(MaxCompute/DataWorks):托管PB级数仓,编写脚本定时调度,产出日报。
实时处理(Storm):Spout读取数据源,通过Stream传递Tuple,Bolt执行逻辑(需自行持久化),组合为Topology提交运行。
数据展现
使用DataV:
直连数据库,SQL查询并格式化;
或通过API接口获取数据渲染。
心得:初期易重功能轻数据,需建立完整可复用的维度,便于后续KPI组合。采用MVP思路快速迭代,类似敏捷开发。当前为初步记录,欢迎指正。