首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SRE转型

    SRE转型:不同团队规模下的银行SRE团队组建策略

    原文链接:【SRE转型】不同团队规模下的银行SRE团队组建策略摘要:本文分析了银行在不同规模团队下的SRE转型策略。 小型团队应优先解决核心系统的稳定性挑战;中型团队通过SLO/SLI管理及跨团队协作初步实践SRE方法;大型团队则推动运维平台智能化。 涉及关键词:银行、SRE转型、团队建设01.引言在银行IT团队推进SRE(站点可靠性工程)转型过程中,不同规模的团队在实践落地的方式上存在显著差异。 本文将深入探讨不同规模团队SRE组建策略,分析基础架构SRE、工具SRE、业务SRE的定位。02.不同规模银行IT团队SRE组建策略在银行SRE转型过程中,团队规模是规划组建策略的重要因素之一。 04.总结与展望通过本文的探讨,我们明确了SRE团队在不同规模IT团队中的组建策略,以及基础架构SRE、工具SRE和业务SRE在推动系统可靠性中的具体角色与职责。

    45900编辑于 2025-02-13
  • SRE 转型关键:SRE 与 DevOps 团队如何高效协作

    理解SRE与DevOps的具体职责和核心作用是实现跨团队协作的基础。1)SRE团队的主要职责SRE起源于Google,其核心目的是通过工程化手段提升服务的可靠性与可用性。 银行的核心系统、渠道服务和产品服务往往有极高的负载要求,SRE团队通过准确的容量规划,确保系统在业务高峰期仍能稳定运行。4.事件响应与根因分析:当系统出现故障时,SRE团队负责快速响应并恢复服务。 4.敏捷开发与快速反馈:DevOps团队支持敏捷开发模式,通过快速反馈机制确保开发、测试、运维等各个环节能够协同工作。 4)容量规划与性能优化在银行的核心系统中,容量规划和性能优化是确保高可用性和高性能的关键。SRE与DevOps可以通过协作共同确保系统能够满足不断变化的业务需求。 以上为SRE和DevOps团队的核心协作点。

    23410编辑于 2026-01-30
  • 来自专栏SRE转型

    深度剖析:银行 SRE 转型中 SRE 与 DevOps 团队的协作

    理解SRE与DevOps的具体职责和核心作用是实现跨团队协作的基础。1)SRE团队的主要职责SRE起源于Google,其核心目的是通过工程化手段提升服务的可靠性与可用性。 银行的核心系统、渠道服务和产品服务往往有极高的负载要求,SRE团队通过准确的容量规划,确保系统在业务高峰期仍能稳定运行。4.事件响应与根因分析:当系统出现故障时,SRE团队负责快速响应并恢复服务。 4.敏捷开发与快速反馈:DevOps团队支持敏捷开发模式,通过快速反馈机制确保开发、测试、运维等各个环节能够协同工作。 4)容量规划与性能优化在银行的核心系统中,容量规划和性能优化是确保高可用性和高性能的关键。SRE与DevOps可以通过协作共同确保系统能够满足不断变化的业务需求。 以上为SRE和DevOps团队的核心协作点。

    30500编辑于 2025-03-18
  • 来自专栏SRE转型

    银行SRE转型:如何突破传统运维困境,打造高效团队

    摘要:银行SRE团队的建设是应对数字化转型挑战的关键策略。本篇文章详细分析了传统运维与SRE的差异,并通过分阶段的转型路径说明了如何从规划到核心能力建设,再到全覆盖推广,逐步构建高效的SRE团队。 其次,银行的业务需要与多方协调,包括开发团队、产品部门、风险控制和合规团队等,这对SRE团队的跨部门协作提出了更高要求。 SRE组织的核心特点包括:跨职能协作:SRE倡导开发团队和运维团队密切合作,打破了传统的“开发”和“运维”壁垒。 3)银行传统运维和SRE组织的对比03.SRE团队组建面对传统运维模式的转型需求,组建一个高效的SRE团队需要系统的规划和分阶段实施。 4)成果评估与持续优化1.量化成果,确保持续改进成果评估:SLO达成率:核心业务系统的稳定性是否达到预期目标。故障恢复时间:是否显著缩短。自动化覆盖率:是否降低了人为干预的比例。

    49510编辑于 2025-02-08
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之认识SRE

    实践:到底应该从哪里入手建设 SRE?组织架构应该怎么匹配? 4、稳定性保障的切入点 切入点:稳定性保障的标准化! 而目前存在的一个痛点是角色和团队之间的协作相对独立,各自为战。 4SRE根本目的 目的:提升稳定性,保障高效的用户价值交付。 7、DevOps和SRE的协同 7.1:DevOps以驱动价值交付为主,搭建企业内部功效平台,SRE需要协调多团队合作来提高稳定性。 如: 与开发和业务团队落实降级; 在开发和测试团队内推动混沌工程落地; 与开发团队定制可用性衡量标准; 与开发、测试、devops、产品团队,共同解决代码质量和需求之间的平衡问题; 7.2:SRE解决运维领域的故障目标 系统可用性:故障≠稳定 业界常说的系统可用性(Availability)"3个9"、"4个9",和建设SRE的目标强相关。

    1.8K10编辑于 2022-04-01
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之切入SRE

    理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。 设定不同的置信区间来找出这样的用户占比,有针对性地解决; 4)Errors-错误率:错误率有多少? 参考:推动稳定性共识机制的2个指导原则 预算充足或者未消耗完之前,对问题的发生要有容忍度; 剩余预算消耗过快或即将消耗完之前,SRE 有权中止和拒绝任何线上变更; 从推行的角度来讲,涉及到跨团队沟通共识机制 一定要自上而下推进周边团队或利益方达成共识。 2.4基于错误预算的告警 监控告警有一点很重要的是告警降噪收敛。即不要被“狼来了”的告警搞定疲惫不堪,要有对应的处理机制。 4、如何选择系统验证的时机 参考:Google的建议 4.1错误预算充足就可以尝试,尽量避开错误预算不足的时间段。

    2.2K10编辑于 2022-04-01
  • 来自专栏XINDOO的专栏

    DevOps和SRE

    SRE是你让一个软件工程师组件一个运维团队的产物,它本质上是一个实体,是一个团队一个工种,是对DevOps的实践。 - DevOps 和SRE建立在变革的基础上了,没有改变何谈提升。 - DevOps的核心是协作,SRE的核心是共享。但两者的主要价值都是贯穿整个组织把各个团队联结在一起。 无论是实践还是理论,SRE和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题,SRE和DevOps都实行不问责的事故处理方式。 或者,换句话说,SRE相信与DevOps相同的东西,但原因略有不同。 作为一个具体的职业,SRE对他们产生的影响高度敏感,反而对信息壁垒不太关注。 SRE支持持续集成和持续交付不是因为商业需求,而是因为持续集成和持续交付涉及到运维。 换句话说,SRE和DevOps相信同样的事,但不是因为同样的原因。

    97520发布于 2021-01-21
  • 来自专栏云云众生s

    SRE与AI

    AI能够根据业务目标推荐更加贴合的标准和优先级,比任何一个人类团队都要快速高效。 当思考Site Reliability Engineering(SRE)以及使软件可靠的一般概念时,很容易看到AI可以发挥重要作用。 以系统监控和服务指标(SLO)为例,这是SRE领域两个常见难题。概念上它们很简单。系统监控就是观察系统输出以确保正常运行。 有了这种视角,它们可以比任何人类团队用更少时间和精力提出更符合业务目标的标准和优先级。 依赖AI视角的风险 归根结底,期望是一个可以分析大量业务数据和目标并提出建议的AI模型。 AI学习工具可以帮助跨团队欣赏和对整个系统有更全面的视角。想象“请求每个服务领域的PowerPoint摘要,并按使用数据细分”并在几分钟内得到结果。

    56610编辑于 2024-03-28
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之SRE落地实践

    谁值守谁负责,而不是谁最熟悉谁负责); 4)确保资源投入的升级机制(即值班相关SRE角色有权调动其他资源,甚至故障升级); 5)与云厂商联合On-Call机制(对于上云企业,和厂商共建故障信息对接群,定时故障演练 如果是全站范围的影响,必要时技术VP或CTO也可以承担IC职责,或授权给某位总监承担; 4SRE回归到OL的职责上,负责组织和协调具体的执行恢复操作的动作。 典型案例:互联网的SRE组织架构 在SRE体系中,高效的故障应对和管理工作,需要整个技术团队共同参与和投入。 要想在组织内引入并落地SRE体系,原有技术团队的组织架构或协作模式必须要做出一些变革。 3、互联网组织架构示意图 基础设施:传统运维这个角色所具备的能力。 平台服务:包括常见的技术中台(有状态的数据产品研发团队)和业务中台(无状态的具有业务共性的业务研发团队)以及业务前台(H5&前端&移动端产品研发团队)。

    3.4K10编辑于 2022-04-01
  • 来自专栏IT运维技术圈

    老杨聊SRE 团队建设全攻略:从 0 到 1 的组织进化

    许多团队用它来对齐研发和运维的节奏。 • Google SRE 的建议是把重复劳动(toil)压到 50% 以下。因为人力应该放在工程化,而不是一遍遍点按钮。 老杨的观点很直接。 把这三条落到制度里。 老杨把定义写成配置,团队都能看懂。 4. 2 小时内给出缓解措施。 5. 24 小时内完成无责复盘。 五、把“部署和回滚”做成习惯 先做 X:把灰度放进流水线。 再做 Y:把回滚做成一条命令。 老杨偏爱金丝雀或蓝绿。理由很简单。 第 3–4 周 • 灰度上线。打通回滚。 • 第一次 SEV 演练。 • 出第一版复盘模板。 第 5–8 周 • 自动化前三项上线。 • 看板三件套稳定运行。 • 值班制度上线。给津贴。给补班规则。 ) histogram_quantile(0.95, sum(rate(http_request_duration_seconds_bucket{job="user"}[5m])) by (le)) 4

    55010编辑于 2025-10-09
  • 来自专栏SRE运维实践

    云原生SRE

    2 为什么需要云原生SRE? 所有的这些,也就促成了云原生SRE的诞生,云原生SRE属于平台级运维,属于数据化运维,如果这些SRE有脑子的话,那么可以摇身一变,变成智能化运维。 ? 高端的产品必然有高端的食材,这就是云原生SRE的舞台。 3 云原生SRE的核心能力 数据化运维,对于各种微服务来说,前端的数据,中间的数据,后端的数据,存储的数据,各种各样的数据,各种各样的APM,收集数据,存储数据,分析数据,利用数据,数据服务化 4 serverless 所谓的serverless,表面意思是无服务器,初步意思是serverless=faas+baas,也就是函数计算和后端服务,都使用api的方式来进行调用,现在的各种数字化转型

    1.6K30发布于 2020-12-22
  • 来自专栏运维开发故事

    SRE食用指南

    SRE 是谷歌提出的理念,旨在做到以应用为中心,以稳定为前提,做到自动化、智能化、平台化,需要工程师的技术能力拉满: 会产品 会开发 会测试 会运维 会架构 ‍ 大家一看到这,就直接把 SRE 拉黑了, 在我看来,SRE 并非一定特指某个人,而是一群人,如果一个公司只招一个 SRE,要么公司不知道 SRE 是什么,要么公司是傻逼中的战斗机。 ‍ 目前国内玩 SRE 玩的比较好的都是大厂,比如百度、蚂蚁、腾讯等,他们的团队规模都很大,这么大团队,如果每个人都会上面的技能,那会是什么场面? 有的人可能会认为会是技术爆表,业务稳定的一 B,而我认为那将是一场灾难:如果一个团队有一个厉害的人,他将是标准,如果一个团队有十个厉害的人,那将有 10 个标准,如果一个团队 100 个人都厉害,那将混乱不堪 ,所以我想那些大厂的 SRE,也不都是全才,但是至少都有一技之长。 ‍

    41530编辑于 2022-12-06
  • 来自专栏数据工人

    团队管理:高效能团队4个阻碍

    而一旦自身要求降低,而组织没有及时发现、纠偏甚至给予应有的支持或惩罚的话,Manager会进一步降低自己和团队成员的要求。这时,组织就逐渐进入熵增扩张阶段,几乎意味着团队失控走向灭亡。 ? 毕竟,大学,也就短短4年,很多人都回忆不起大学除了谈恋爱还学了啥了。 其实,上述的解读,也应并不是达克效应的本意。 是吧,明明是个“志愿者”团队,居然被人说成了大爷。当然,这个微博后面被删了,毕竟ZZ不正确。 其实,一个团队,无时不刻不充斥着类似这种情况。所以,作为TL,首先要与团队成员,与领导去对齐认知。 他的做事方法,他认为的结果完全不是你要的,你们怎么可能做到团队协同?达不到团队协同,怎么可能有好的团队效能? 李善友说,成人学习的目的,是追求更好的思维模型,而不是增加更多知识量。 如果把握成员团队的这些问题?有两个方法,一个是教化,另一个是这样的人在招聘的时候就做好把关。

    73110发布于 2020-03-04
  • 来自专栏让技术和时代并行

    SRE最佳实践

    什么是站点可靠性工程(SRE)? 站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。 SRE团队将IT团队完成的任务(通常是手工完成的)交给工程师或运维团队,后者使用工具和自动化来解决问题和管理生产系统。 在创建可伸缩和高度可靠的软件系统时,这是一种有价值的实践。 为什么SRE很重要?好的SRE团队需要具备哪些条件? SRE就像是软件工程和IT操作之间的桥梁,填补了它们之间的空白。在几乎所有地方,SRE都在为生产系统中的故障做准备时发挥作用。 SRE的主要目标是提高性能和运行效率。 所以,SRE不仅仅是负责编码的行动人员。另外,SRE是开发团队中拥有不同技能集的成员,特别是在部署、配置管理、监视、度量等方面。 总结 这篇博文试图涵盖建立成功的SRE团队所需的基本概念和实践。如果您计划在您的项目/组织中采用SRE文化,请培训您的团队,遵循最佳实践,并信任该过程。你不可能做到100%的完美。这是一个神话。

    1.9K20编辑于 2023-03-18
  • 来自专栏SRE运维进阶之路

    SRE 学习路线

    SRE 工作职责 要制定学习路线,首先我们要搞情况 SRE 的工作职责。 SRE/稳定性保障具体措施包括但不限于: 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。 当指标超出预定的阈值时,自动触发警报通知相关团队,以便及时采取措施。 文档和知识共享:记录系统的配置、架构和故障处理经验,以便团队成员之间进行知识共享和技能传承。 SRE 稳定性保障体系 SRE 主要工作是保障稳定性,稳定性就是不出故障,围绕着故障周期,整理出 SRE 稳定性保障体系。 SRE RoadMap 根据工作职责和稳定性保障体系,整理出学习路线。

    78521编辑于 2024-04-23
  • 来自专栏锅总

    锅总浅析SRE

    这些工具帮助SRE团队实现自动化运维、提高系统可靠性、降低人为错误,并使系统具有更好的可观察性和可维护性。 4. 故障排除与性能优化 故障排除:能够快速定位和解决系统故障,使用调试工具和日志分析工具。 性能优化:分析系统性能瓶颈并进行优化,确保系统能够处理高负载和突发流量。 5. 沟通与协作 团队协作:与开发团队、运维团队和其他相关团队紧密合作,确保系统的稳定运行。 文档编写:编写和维护相关文档,确保知识的共享和传承。 11. 顶级SRE团队主管:年薪可以超过 $200,000,有些大型科技公司可能提供更高的薪酬和股票期权。 中国 在中国,一线城市(如北京、上海、深圳)的SRE薪资相对较高。 顶级SRE团队主管:年薪可以超过 ¥600,000,有些大型互联网公司(如阿里巴巴、腾讯、字节跳动)可能提供更高的薪酬和股票期权。

    1.2K10编辑于 2024-08-05
  • 来自专栏SRE转型

    SRE转型:银行 SRE 转型与 SLO 管理的深度融合

    4)故障响应与改进在SLO管理中,SRE不仅要关注服务的正常运行,还需要在服务未达标时及时响应,并通过根因分析(RCA)进行故障修复和持续改进。 应对策略:与合规团队协作:SRE团队在制定SLO时,必须与合规团队紧密合作,确保SLO目标符合金融行业的法规要求。 4)挑战四:跨部门协作与沟通SLO管理涉及多个部门的紧密协作,尤其是开发团队、运维团队、业务团队、合规团队等。在银行中,往往存在部门间沟通不畅、协作不力等问题,导致SLO设定和执行过程中出现偏差。 SRE团队需要定期与开发、业务、合规等团队沟通,确保目标的一致性,并及时调整应对策略。 业务对接专员能够帮助SRE团队准确理解业务需求,同时也能帮助业务团队理解SLO目标的重要性。

    39310编辑于 2025-02-13
  • 来自专栏云计算与大数据

    SRE的能力建设

    sre关注点与能力建设

    1.2K10发布于 2019-12-03
  • 来自专栏AI科技大本营的专栏

    干货:NIST评测(SRE19)获胜团队声纹识别技术分析 | CSDN博文精选

    作者 | xjdier 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 近日,NIST说话人识别技术评测 (Speaker Recognition Evaluation,SRE) NIST SRE是由美国国家标准与技术研究院主办的国际上最权威、规模最大的声纹识别技术评测和多媒体评测,为全球的研究机构提供了一个统一的测试平台。 从1996年举办至今,参加NIST SRE评测的研究机构逐年增加,今年有包括MIT,JHU,NEC等各国顶尖学术科研机构和公司参加。 FTDNN则是把TDNN 10241024的层拆成两层:1024256,2561024,网络从随机初始化开始训练,在参数更新的过程中,后一层每4个step半正交化一次。 FTDNN则是把TDNN 10241024的层拆成两层:1024256,2561024,网络从随机初始化开始训练,在参数更新的过程中,后一层每4个step半正交化一次。

    1.6K20发布于 2020-02-12
  • 来自专栏乌龟哥哥默认学习专栏

    SRE 运维解密

    SRE团队4)预防与事故应对尽管Mikey金字塔七层模型中仍然有监控、事件响度和事件回顾等层次,与当前传统应对型运维体系有近似的地方。但是从整体上,SRE整个运维体系非常强调预防的重要性。 4)监控数据存储和分析,监控数据是运维分析、运维自动化和智能化的基础,因此海量监控数据存储以及基于监控数据的可视化分析是一个监控系统的基本能力。 个人不应该害怕事故,而是确信如果事故发生,团队将会响应和改进系统。我认为SRE的一个关键共识正是承认了系统的不完美性,追求永不停机的系统是不现实的。 与开发团队来共同承担。除了测试外,应用发布也是一项运维团队通常要承担的责任。SRE的一个原则是将一切可以重复性劳动代码化和工具化;此外,应用发布的复杂程度往往与系统的复杂程度成正比。

    88600编辑于 2023-09-29
领券