首页
学习
活动
专区
圈层
工具
发布

大数据处理基本过程

初入大数据领域一个月,记录基础知识与整体架构。

大数据概述

指常规软件无法处理的海量、高增长、多样化数据集,需新处理模式。5V特点:大量、高速、多样、低价值密度、真实。

处理流程:采集清洗加工展现。

采集方式

批采集:MaxCompute每日抓取数据库快照。

实时接口:DataHub高吞吐低延迟,通过SDK记录后台调用并持续写入。

前端埋点:按业务需求设置,经流传输进入数仓。

清洗/预处理:如IP转地址、过滤脏数据。

数据处理

离线批处理(MaxCompute/DataWorks):托管PB级数仓,编写脚本定时调度,产出日报。

实时处理(Storm):Spout读取数据源,通过Stream传递Tuple,Bolt执行逻辑(需自行持久化),组合为Topology提交运行。

数据展现

使用DataV:

直连数据库,SQL查询并格式化;

或通过API接口获取数据渲染。

心得:初期易重功能轻数据,需建立完整可复用的维度,便于后续KPI组合。采用MVP思路快速迭代,类似敏捷开发。当前为初步记录,欢迎指正。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O1IO9usmCbXUuTRPxCe6kVMA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券