原文链接:【SRE转型】不同团队规模下的银行SRE团队组建策略摘要:本文分析了银行在不同规模团队下的SRE转型策略。 本文将深入探讨不同规模团队的SRE组建策略,分析基础架构SRE、工具SRE、业务SRE的定位。02.不同规模银行IT团队的SRE组建策略在银行SRE转型过程中,团队规模是规划组建策略的重要因素之一。 3)大型银行(IT团队规模:100人以上)特点:拥有多业务线、复杂的分布式架构和丰富的技术资源。开发与运维团队规模庞大,分工明确且结构复杂。技术水平较高,能够实现深入的自动化与智能化运维。 为开发和运维团队提供工具使用培训和技术支持,确保工具平台的高效利用。3)业务SRE(Product/Service SRE)职责:与业务线紧密合作,确保产品和服务的高可用性,支持业务快速迭代和创新。 随着团队能力提升,引入更高级的技术(如IaC、全链路监控、AIOps),实现递进式优化。3)培养可靠性文化推动开发、运维及业务团队对可靠性目标的共同认知和协作。
3.容量规划与性能优化:SRE团队负责分析和预测系统的资源需求,进行容量规划,确保系统能够应对不断变化的负载。 3.基础设施即代码(IaC):基础设施即代码(IaC)是DevOps的核心实践之一。DevOps团队通过将基础设施的配置、管理和版本控制代码化,帮助银行实现基础设施的自动化管理和快速恢复。 3)SRE与DevOps的共同目标尽管SRE和DevOps在职能上有所不同,但两者有着共同的目标:提升系统的可靠性、可用性和敏捷性。 3.加速产品交付:通过高效的CI/CD管道、自动化工具链,缩短开发和运维之间的周期,支持银行产品快速上市。 3)故障响应与问题解决无论是SRE还是DevOps,都需要关注故障的快速响应和问题的根本原因分析。
3.容量规划与性能优化:SRE团队负责分析和预测系统的资源需求,进行容量规划,确保系统能够应对不断变化的负载。 3.基础设施即代码(IaC):基础设施即代码(IaC)是DevOps的核心实践之一。DevOps团队通过将基础设施的配置、管理和版本控制代码化,帮助银行实现基础设施的自动化管理和快速恢复。 3)SRE与DevOps的共同目标尽管SRE和DevOps在职能上有所不同,但两者有着共同的目标:提升系统的可靠性、可用性和敏捷性。 3.加速产品交付:通过高效的CI/CD管道、自动化工具链,缩短开发和运维之间的周期,支持银行产品快速上市。 3)故障响应与问题解决无论是SRE还是DevOps,都需要关注故障的快速响应和问题的根本原因分析。
摘要:银行SRE团队的建设是应对数字化转型挑战的关键策略。本篇文章详细分析了传统运维与SRE的差异,并通过分阶段的转型路径说明了如何从规划到核心能力建设,再到全覆盖推广,逐步构建高效的SRE团队。 3)银行传统运维和SRE组织的对比03.SRE团队组建面对传统运维模式的转型需求,组建一个高效的SRE团队需要系统的规划和分阶段实施。 试点团队组成:2~3名资深运维工程师,负责梳理系统现状及优化流程。1~2名开发工程师,负责自动化工具的开发与实施。1名安全工程师,确保转型符合行业合规要求。 核心团队扩展 至5~7人:3人负责监控与自动化工具建设。2人专注故障响应与性能优化。1人作为业务对接专员,确保目标对齐。 3)SRE模式推广1.扩大SRE覆盖范围,推动文化落地随着团队能力的逐步成熟,SRE模式可以从核心系统向其他业务系统推广,实现整体运维能力提升。
3、我们所看到的SRE 理念:SRE 到底是什么? ; 其他的角度:SRE传统运维的升级版,把运维自动化做好就行; 3、如何理解SRE SRE稳定性保障规划图: SRE是一整套稳定性保障的最佳实践体系,需要高效的跨团队组织协作才能完成。 7、DevOps和SRE的协同 7.1:DevOps以驱动价值交付为主,搭建企业内部功效平台,SRE需要协调多团队合作来提高稳定性。 如: 与开发和业务团队落实降级; 在开发和测试团队内推动混沌工程落地; 与开发团队定制可用性衡量标准; 与开发、测试、devops、产品团队,共同解决代码质量和需求之间的平衡问题; 7.2:SRE解决运维领域的故障目标 系统可用性:故障≠稳定 业界常说的系统可用性(Availability)"3个9"、"4个9",和建设SRE的目标强相关。
极客时间上赵成老师的《SRE实战手册》是线上稳定性保障领域很好的一门技术课程。 这篇文章是学习笔记的第二篇,理解SRE之后,就要找到切入点来落地。 理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。 监控体系是SRE体系中很重要的组成部分,也是最直观的指标产出展示方式。 2、常见的监控指标 3、选择监控指标的考量点 两个因素 要衡量谁的稳定性? 参考:推动稳定性共识机制的2个指导原则 预算充足或者未消耗完之前,对问题的发生要有容忍度; 剩余预算消耗过快或即将消耗完之前,SRE 有权中止和拒绝任何线上变更; 从推行的角度来讲,涉及到跨团队沟通共识机制 一定要自上而下推进周边团队或利益方达成共识。 2.4基于错误预算的告警 监控告警有一点很重要的是告警降噪收敛。即不要被“狼来了”的告警搞定疲惫不堪,要有对应的处理机制。
SRE是你让一个软件工程师组件一个运维团队的产物,它本质上是一个实体,是一个团队一个工种,是对DevOps的实践。 - DevOps 和SRE建立在变革的基础上了,没有改变何谈提升。 - DevOps的核心是协作,SRE的核心是共享。但两者的主要价值都是贯穿整个组织把各个团队联结在一起。 无论是实践还是理论,SRE和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题,SRE和DevOps都实行不问责的事故处理方式。 或者,换句话说,SRE相信与DevOps相同的东西,但原因略有不同。 作为一个具体的职业,SRE对他们产生的影响高度敏感,反而对信息壁垒不太关注。 SRE支持持续集成和持续交付不是因为商业需求,而是因为持续集成和持续交付涉及到运维。 换句话说,SRE和DevOps相信同样的事,但不是因为同样的原因。
AI能够根据业务目标推荐更加贴合的标准和优先级,比任何一个人类团队都要快速高效。 当思考Site Reliability Engineering(SRE)以及使软件可靠的一般概念时,很容易看到AI可以发挥重要作用。 以系统监控和服务指标(SLO)为例,这是SRE领域两个常见难题。概念上它们很简单。系统监控就是观察系统输出以确保正常运行。 有了这种视角,它们可以比任何人类团队用更少时间和精力提出更符合业务目标的标准和优先级。 依赖AI视角的风险 归根结底,期望是一个可以分析大量业务数据和目标并提出建议的AI模型。 AI学习工具可以帮助跨团队欣赏和对整个系统有更全面的视角。想象“请求每个服务领域的PowerPoint摘要,并按使用数据细分”并在几分钟内得到结果。
5、On-Call机制的优势 1)最快最好的熟悉系统的方式; 2)培养和锻炼新人以及backup角色; 3)新人融入团队和承担责任的最佳方式; 故障处理:恢复业务为最高优先级 在MTTR环节中,MTTK ,优先恢复业务优先; 3)如果问题疑难或影响范围大,SRE可以要求更高级别的角色介入如 SRE主管或总监。 典型案例:互联网的SRE组织架构 在SRE体系中,高效的故障应对和管理工作,需要整个技术团队共同参与和投入。 要想在组织内引入并落地SRE体系,原有技术团队的组织架构或协作模式必须要做出一些变革。 3、互联网组织架构示意图 基础设施:传统运维这个角色所具备的能力。 3、SRE各个角色如何协作? 案例:双十一大促保障!
许多团队用它来对齐研发和运维的节奏。 • Google SRE 的建议是把重复劳动(toil)压到 50% 以下。因为人力应该放在工程化,而不是一遍遍点按钮。 老杨的观点很直接。 把这三条落到制度里。 老杨把定义写成配置,团队都能看懂。 3. 30 分钟内更新一次状态。 4. 2 小时内给出缓解措施。 5. 24 小时内完成无责复盘。 五、把“部署和回滚”做成习惯 先做 X:把灰度放进流水线。 再做 Y:把回滚做成一条命令。 事项 负责 R 协作 A 咨询 C 知会 I SLO 制定 业务 TL SRE TL PM、测试 全员 告警规则 SRE 业务 开发 全员 发布策略 开发 SRE 测试 全员 事故响应 值班 SRE 开发 • 事故管理:飞书多维表 / 企业微信应用;小团队可用 GitLab Issues 做行动跟踪。 选型只看三件事。 可观测性统一。权限可控。回滚简单。
2 为什么需要云原生SRE? 所有的这些,也就促成了云原生SRE的诞生,云原生SRE属于平台级运维,属于数据化运维,如果这些SRE有脑子的话,那么可以摇身一变,变成智能化运维。 ? 高端的产品必然有高端的食材,这就是云原生SRE的舞台。 3 云原生SRE的核心能力 数据化运维,对于各种微服务来说,前端的数据,中间的数据,后端的数据,存储的数据,各种各样的数据,各种各样的APM,收集数据,存储数据,分析数据,利用数据,数据服务化
SRE 是谷歌提出的理念,旨在做到以应用为中心,以稳定为前提,做到自动化、智能化、平台化,需要工程师的技术能力拉满: 会产品 会开发 会测试 会运维 会架构 大家一看到这,就直接把 SRE 拉黑了, 在我看来,SRE 并非一定特指某个人,而是一群人,如果一个公司只招一个 SRE,要么公司不知道 SRE 是什么,要么公司是傻逼中的战斗机。 目前国内玩 SRE 玩的比较好的都是大厂,比如百度、蚂蚁、腾讯等,他们的团队规模都很大,这么大团队,如果每个人都会上面的技能,那会是什么场面? 有的人可能会认为会是技术爆表,业务稳定的一 B,而我认为那将是一场灾难:如果一个团队有一个厉害的人,他将是标准,如果一个团队有十个厉害的人,那将有 10 个标准,如果一个团队 100 个人都厉害,那将混乱不堪 ,所以我想那些大厂的 SRE,也不都是全才,但是至少都有一技之长。
什么是站点可靠性工程(SRE)? 站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。 SRE团队将IT团队完成的任务(通常是手工完成的)交给工程师或运维团队,后者使用工具和自动化来解决问题和管理生产系统。 在创建可伸缩和高度可靠的软件系统时,这是一种有价值的实践。 为什么SRE很重要?好的SRE团队需要具备哪些条件? SRE就像是软件工程和IT操作之间的桥梁,填补了它们之间的空白。在几乎所有地方,SRE都在为生产系统中的故障做准备时发挥作用。 SRE的主要目标是提高性能和运行效率。 所以,SRE不仅仅是负责编码的行动人员。另外,SRE是开发团队中拥有不同技能集的成员,特别是在部署、配置管理、监视、度量等方面。 总结 这篇博文试图涵盖建立成功的SRE团队所需的基本概念和实践。如果您计划在您的项目/组织中采用SRE文化,请培训您的团队,遵循最佳实践,并信任该过程。你不可能做到100%的完美。这是一个神话。
SRE 工作职责 要制定学习路线,首先我们要搞情况 SRE 的工作职责。 SRE/稳定性保障具体措施包括但不限于: 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。 当指标超出预定的阈值时,自动触发警报通知相关团队,以便及时采取措施。 文档和知识共享:记录系统的配置、架构和故障处理经验,以便团队成员之间进行知识共享和技能传承。 SRE 稳定性保障体系 SRE 主要工作是保障稳定性,稳定性就是不出故障,围绕着故障周期,整理出 SRE 稳定性保障体系。 SRE RoadMap 根据工作职责和稳定性保障体系,整理出学习路线。
这些工具帮助SRE团队实现自动化运维、提高系统可靠性、降低人为错误,并使系统具有更好的可观察性和可维护性。 3. 监控与可观察性 监控系统:设置和维护监控系统(如Prometheus、Grafana、Nagios),实时监控系统性能和健康状态。 沟通与协作 团队协作:与开发团队、运维团队和其他相关团队紧密合作,确保系统的稳定运行。 文档编写:编写和维护相关文档,确保知识的共享和传承。 11. 顶级SRE或团队主管:年薪可以超过 $200,000,有些大型科技公司可能提供更高的薪酬和股票期权。 中国 在中国,一线城市(如北京、上海、深圳)的SRE薪资相对较高。 高级SRE:年薪大约在 ₹2,000,000 到 ₹3,000,000 以上。 顶级SRE或团队主管:年薪可以超过 ₹3,000,000,有些大型科技公司可能提供更高的薪酬和股票期权。
3)SLO监控与指标收集一旦定义了SLI和SLO,接下来就需要建立全面的监控系统,以便实时追踪这些指标,并根据指标的变化及时作出响应。SLO管理的有效性很大程度上取决于监控的准确性和实时性。 3)挑战三:合规性与安全性要求银行的运营受制于严格的监管和合规要求,特别是在金融行业中,涉及到大量敏感数据的处理和存储。SLO管理的实施需要考虑到合规性和安全性要求,特别是在跨部门合作和数据传输方面。 应对策略:与合规团队协作:SRE团队在制定SLO时,必须与合规团队紧密合作,确保SLO目标符合金融行业的法规要求。 SRE团队需要定期与开发、业务、合规等团队沟通,确保目标的一致性,并及时调整应对策略。 业务对接专员能够帮助SRE团队准确理解业务需求,同时也能帮助业务团队理解SLO目标的重要性。
sre关注点与能力建设
作者 | xjdier 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE) NIST SRE是由美国国家标准与技术研究院主办的国际上最权威、规模最大的声纹识别技术评测和多媒体评测,为全球的研究机构提供了一个统一的测试平台。 从1996年举办至今,参加NIST SRE评测的研究机构逐年增加,今年有包括MIT,JHU,NEC等各国顶尖学术科研机构和公司参加。 EFTDNN采用3-stage splicing的策略,传统的节点数为1024的TDNN层,被拆成三个卷积层,其中前两个卷积层在训练的过程中限制半正交。 EFTDNN采用3-stage splicing的策略,传统的节点数为1024的TDNN层,被拆成三个卷积层,其中前两个卷积层在训练的过程中限制半正交。
SRE团队。 3)高度自动化和工具化SRE本身是一个软件工程师以软件工程的方法解决运维问题的体系,因此就自身而言,SRE极度鄙视重复性的运维工作,更倾向于使用代码的方式去应对各种重复性的运维操作。 3)海量设备支持,企业IT系统数量和规模越来越大,因此监控系统比以前需要监控海量设备监控。 与开发团队来共同承担。除了测试外,应用发布也是一项运维团队通常要承担的责任。SRE的一个原则是将一切可以重复性劳动代码化和工具化;此外,应用发布的复杂程度往往与系统的复杂程度成正比。 3)运维经验能力的传承,运维自动化工具将原来许多运维团队积累的经验以代码方式总结为各种运维工具,实现自动化和白屏化的运维操作。运维团队的后来者,可以有效地继承、重复使用并优化它们。
SRE是个全能手,DevOps的实践者 SRE全称:Site Reliability Engineering,翻译过来就是:站点可靠性工程师。 SRE的工作是Develop+Operate的结合,SRE是DevOps的实践者,他们的工作内容和职责和传统运维工程师差不多:发布、部署、监控、排障,目标一致。 之前参加的“软件工程的精益化管理”课程实验中,实践证明了自动化工具的威力很大,能够明显提升整个团队的生产力。 反思 and 总结 这两个优点对于SRE很是重要,反思使得SRE从失败中学习教训,总结使SRE从时间中获得经验,个人和团队需要学习和践行这种精神,但是对事不对人。 如果开发团队牛逼,代码质量高或者运气好,你可以迭代快,反之你需要慢点来,间接地,大家都对线上系统负责了。 10. 反直觉的真理 1、不要承诺你的系统100%可靠。