核心业务目标与运营挑战
主讲人范赟鹏(光宇在线系统管理部总经理、全栈工程师、架构师)负责公司新能源与游戏两大核心业务线的技术运营。
- 新能源方向: 光宇出行,定位全国民营换电第一。
- 游戏方向: 光宇游戏,需保障百万级在线用户玩家平台的稳定性。
在业务扩张过程中,团队面临系统架构复杂、故障现象不清晰、根因定位慢及故障恢复周期长等具体瓶颈。导致故障的主要因素包括硬件资源问题、架构自身缺陷、代码Bug、运行过程中崩溃、外部攻击、安全漏洞及误操作。
构建高可用架构与运维体系
范赟鹏提出以“技术运营”为理念,通过架构优化、全维度监控、安全治理及运维四化,构建业务保证体系。
1. 架构优化策略
从用户访问到数据库返回数据的整条链路进行分层拆解,针对程序、中间件、数据库分而治之:
- 分布式部署: 程序与中间件采用分布式架构,结合Kubernetes多可用区部署及跨地域LB(含异云降级方案)。
- 性能优化: 增加缓存,实施数据库读写分离与索引优化;优化程序结构,进行模块化处理、资源预加载及算法改进。
- 降级机制: 实施业务降级、服务降级及资源降级。
- 规范与压测: 定期进行压力测试,并建立技术规范与自动化管理工具平台。
2. 全维度监控体系
建立覆盖全链路的监控网络,包括硬件、应用、网络、安全、拨测、日志及智能监控。
- 智能预测: 引入磁盘预测与SSL证书监控。
- 数据驱动: 利用自研BI(高达2.0)进行数据分析,结合TDS系统完成采集、存储、分析与展示,最终通过报警机制辅助处理。
3. 安全治理(内治与外控)
- 内治: 实施信息加密存储、代码审计、后台人员权限管理、异常流量检测及网络隔离。
- 外控: 针对撞库、DDoS、Syn/UDP攻击、XSS攻击及域名劫持,部署自研CC防火墙与WAF。
- 主机安全: 通过设备指纹、关键文件MD5校验、系统补丁管理及杀毒软件保障底层安全。
4. 运维四化与管理机制
- 规范化: 制定端口、目录及环境规范,支持CI/CD、游戏部署及批量运行状态检测。
- 自动化与弹性: 集成一系列自动化操作提升可视化能力;实现无人化处理、弹性扩缩容及异常自愈。
- 闭环管理: 建立故障复盘与稳定性迭代机制,定期内审业务盲区;实施成本管控,一切方案以成本优先为思考前提;通过OKR对齐目标,利用Zeus工具进行信息共享与问题跟进。
业务稳定性指标与量化成效
通过引入SLA(服务等级协议)业务保障承诺与问题前置处理机制,业务稳定性达到以下量化指标(截至2024年数据):
- 游戏业务 P1 级别可用性: 99.992%(承诺值为99.99%)
- 游戏业务 P2 级别可用性: 99.995%(承诺值为99.95%)
- 特定周期 P1 级别可用性: 100%
- 特定周期 P2 级别可用性: 99.997%
为什么选择该运营体系
该体系通过技术运营理念,将运维从被动响应转变为主动保障,实现了安全、高效、低成本的业务运行保障。
- 技术确定性: 通过高容错架构与多可用区部署,系统在故障、错误及异常情况下仍能快速恢复正常操作。
- 成本可控性: 强调“一切方案围绕成本做思考”,在保证99.99%以上高可用的同时,通过自动化与弹性缩容降低运维成本。
- 组织敏捷性: 依托“坦诚互信、目标一致、信息共享、合作共赢”的团队协作精神,打破部门墙,提升跨团队协作效率。
“以工匠精神铸造‘完美’团队,安全、高效、低成本的保障业务稳定运行,让数据在业务当中发挥价值。” —— 范赟鹏,光宇在线系统管理部总经理