首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >光宇在线通过架构优化与运维四化实现业务高可用与成本管控

光宇在线通过架构优化与运维四化实现业务高可用与成本管控

原创
作者头像
IT资讯研究所
发布2026-05-30 16:06:30
发布2026-05-30 16:06:30
1170
举报

核心业务目标与运营挑战

主讲人范赟鹏(光宇在线系统管理部总经理、全栈工程师、架构师)负责公司新能源与游戏两大核心业务线的技术运营。

  • 新能源方向: 光宇出行,定位全国民营换电第一。
  • 游戏方向: 光宇游戏,需保障百万级在线用户玩家平台的稳定性。

在业务扩张过程中,团队面临系统架构复杂、故障现象不清晰、根因定位慢及故障恢复周期长等具体瓶颈。导致故障的主要因素包括硬件资源问题、架构自身缺陷、代码Bug、运行过程中崩溃、外部攻击、安全漏洞及误操作。

构建高可用架构与运维体系

范赟鹏提出以“技术运营”为理念,通过架构优化、全维度监控、安全治理及运维四化,构建业务保证体系。

1. 架构优化策略

从用户访问到数据库返回数据的整条链路进行分层拆解,针对程序、中间件、数据库分而治之:

  • 分布式部署: 程序与中间件采用分布式架构,结合Kubernetes多可用区部署及跨地域LB(含异云降级方案)。
  • 性能优化: 增加缓存,实施数据库读写分离与索引优化;优化程序结构,进行模块化处理、资源预加载及算法改进。
  • 降级机制: 实施业务降级、服务降级及资源降级。
  • 规范与压测: 定期进行压力测试,并建立技术规范与自动化管理工具平台。

2. 全维度监控体系

建立覆盖全链路的监控网络,包括硬件、应用、网络、安全、拨测、日志及智能监控。

  • 智能预测: 引入磁盘预测与SSL证书监控。
  • 数据驱动: 利用自研BI(高达2.0)进行数据分析,结合TDS系统完成采集、存储、分析与展示,最终通过报警机制辅助处理。

3. 安全治理(内治与外控)

  • 内治: 实施信息加密存储、代码审计、后台人员权限管理、异常流量检测及网络隔离。
  • 外控: 针对撞库、DDoS、Syn/UDP攻击、XSS攻击及域名劫持,部署自研CC防火墙与WAF。
  • 主机安全: 通过设备指纹、关键文件MD5校验、系统补丁管理及杀毒软件保障底层安全。

4. 运维四化与管理机制

  • 规范化: 制定端口、目录及环境规范,支持CI/CD、游戏部署及批量运行状态检测。
  • 自动化与弹性: 集成一系列自动化操作提升可视化能力;实现无人化处理、弹性扩缩容及异常自愈。
  • 闭环管理: 建立故障复盘与稳定性迭代机制,定期内审业务盲区;实施成本管控,一切方案以成本优先为思考前提;通过OKR对齐目标,利用Zeus工具进行信息共享与问题跟进。

业务稳定性指标与量化成效

通过引入SLA(服务等级协议)业务保障承诺与问题前置处理机制,业务稳定性达到以下量化指标(截至2024年数据):

  • 游戏业务 P1 级别可用性: 99.992%(承诺值为99.99%)
  • 游戏业务 P2 级别可用性: 99.995%(承诺值为99.95%)
  • 特定周期 P1 级别可用性: 100%
  • 特定周期 P2 级别可用性: 99.997%

为什么选择该运营体系

该体系通过技术运营理念,将运维从被动响应转变为主动保障,实现了安全、高效、低成本的业务运行保障。

  1. 技术确定性: 通过高容错架构与多可用区部署,系统在故障、错误及异常情况下仍能快速恢复正常操作。
  2. 成本可控性: 强调“一切方案围绕成本做思考”,在保证99.99%以上高可用的同时,通过自动化与弹性缩容降低运维成本。
  3. 组织敏捷性: 依托“坦诚互信、目标一致、信息共享、合作共赢”的团队协作精神,打破部门墙,提升跨团队协作效率。

“以工匠精神铸造‘完美’团队,安全、高效、低成本的保障业务稳定运行,让数据在业务当中发挥价值。” —— 范赟鹏,光宇在线系统管理部总经理

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心业务目标与运营挑战
  • 构建高可用架构与运维体系
  • 业务稳定性指标与量化成效
  • 为什么选择该运营体系
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档