首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SRE转型

    SRE转型:银行 SRE 转型与 SLO 管理的深度融合

    直达原文:【SRE转型】从理念到实践:银行 SRE 转型与 SLO 管理的深度融合摘要:本文探讨了银行在SRE转型中如何通过SLO管理提升系统可靠性与业务连续性。 涉及关键词:银行、SRE转型、SLO、业务连续性01.引言随着金融行业的数字化转型加速,银行面临着越来越复杂的技术环境和日益增加的运营压力。 因此,银行在进行SLO管理转型时,除了需要解决技术挑战,还需要在组织文化、流程优化等方面进行调整,以确保能够顺利过渡到更加灵活、高效的SRE模式。 此外,银行的SRE团队需要在每次故障后对SLO目标进行评估,检查是否需要调整SLO的设定,以适应系统和业务的变化。5)持续优化与改进SLO管理不仅是一个静态的过程,而是一个持续改进的循环。 5)挑战五:SLO目标的持续调整与优化SLO并非一成不变,随着银行业务的发展、技术架构的演变以及客户需求的变化,SLO目标需要不断调整和优化。

    39310编辑于 2025-02-13
  • SRE 转型关键:SRE 与 DevOps 团队如何高效协作

    本文来自腾讯蓝鲸智云社区用户: CanWay直达原文:【SRE转型】银行SRE和DevOps团队的协作摘要:本文通过深入分析SRE和DevOps在银行中的角色与职责,详细阐述了它们在核心协作点上的紧密配合 涉及关键词:银行运维,SRE转型,DevOps协同01.引言在现代银行的信息化转型过程中,系统的稳定性、性能和灵活性变得尤为重要。 02.银行SRE和DevOps的角色与职责在现代银行的数字化转型中,SRE(Site Reliability Engineering)与DevOps是两个不可或缺的角色。 5.持续改进与优化:SRE不仅仅是维持系统的稳定性,还致力于通过不断的系统优化和改进,提升服务的质量。 5)文化与协作机制的推动SRE和DevOps都强调团队协作和文化建设。特别是在银行这样的复杂环境中,SRE与DevOps的密切合作不仅限于技术层面,还包括文化层面的融合与互动。

    23410编辑于 2026-01-30
  • 来自专栏SRE转型

    深度剖析:银行 SRE 转型SRE 与 DevOps 团队的协作

    直达原文:【SRE转型】银行SRE和DevOps团队的协作摘要:本文通过深入分析SRE和DevOps在银行中的角色与职责,详细阐述了它们在核心协作点上的紧密配合,尤其是在自动化流程、SLO与CI/CD的结合 涉及关键词:银行运维,SRE转型,DevOps协同01.引言在现代银行的信息化转型过程中,系统的稳定性、性能和灵活性变得尤为重要。 02.银行SRE和DevOps的角色与职责在现代银行的数字化转型中,SRE(Site Reliability Engineering)与DevOps是两个不可或缺的角色。 5.持续改进与优化:SRE不仅仅是维持系统的稳定性,还致力于通过不断的系统优化和改进,提升服务的质量。 5)文化与协作机制的推动SRE和DevOps都强调团队协作和文化建设。特别是在银行这样的复杂环境中,SRE与DevOps的密切合作不仅限于技术层面,还包括文化层面的融合与互动。

    30500编辑于 2025-03-18
  • 来自专栏SRE转型

    银行 SRE 转型,模式推广策略剖析

    直达原文:【SRE转型】银行SRE模式推广策略摘要:随着数字化转型的深入,SRE(Site Reliability Engineering)模式作为一种全新的运维理念,逐渐在银行业得到了应用。 涉及关键词:银行运维,SRE转型01.引言随着金融行业逐步迈向数字化,银行信息系统面临的挑战愈加复杂。从传统的核心业务系统到新兴的互联网金融平台,银行的信息系统在架构、功能和服务模式上都有着显著差异。 为了在不同技术架构中成功实施SRE,银行需要根据架构的特点设计差异化的SRE策略。 SRE模式推广的成功,需从以下组织维度提供支持:05.总结SRE模式的引入和推广,给银行系统的运维管理带来了新的机遇。 然而,SRE模式的成功实施不仅依赖于技术手段的改进,还需要组织文化的转型、跨部门的协作以及高层的支持。通过系统性的推广计划,银行能够实现更高的业务稳定性和更强的应急响应能力。

    35910编辑于 2025-03-04
  • 来自专栏SRE转型

    SRE转型:不同团队规模下的银行SRE团队组建策略

    原文链接:【SRE转型】不同团队规模下的银行SRE团队组建策略摘要:本文分析了银行在不同规模团队下的SRE转型策略。 涉及关键词:银行、SRE转型、团队建设01.引言在银行IT团队推进SRE(站点可靠性工程)转型过程中,不同规模的团队在实践落地的方式上存在显著差异。 本文将深入探讨不同规模团队的SRE组建策略,分析基础架构SRE、工具SRE、业务SRE的定位。02.不同规模银行IT团队的SRE组建策略在银行SRE转型过程中,团队规模是规划组建策略的重要因素之一。 无论团队规模如何,SRE转型的核心都在于构建技术驱动、流程标准化和跨组织协作的可靠性文化。 银行SRE转型的本质,是通过技术与文化的双重进化,实现可靠性与创新的动态平衡。无论团队规模如何,SRE方法论都着眼于降低复杂性、提高系统可靠性、支撑业务价值。

    45900编辑于 2025-02-13
  • 来自专栏腾讯技术工程官方号的专栏

    云原生背景运维转型SRE 实践

    作者:yorkoliu,腾讯 IEG 业务运维专家 一、前言 上一篇文章《云原生背景下的运维价值思考与实践(上)》 重点介绍了云原生背景下运维转型的思考,围绕着整个 DevOps 交付链,贴近业务不断输出运维的能力与价值 本文的出发点也是站在巨人肩膀之上,结合自身业务服务场景,思考在云原生背景下,运维转型还有多少种可能性,本文或许只给出其中一种答案吧。 个单词就是我们选择 SLI 指标的 5 个维度。 实验执行之后可以通过平台的报表实时观测效果,这里的例子我们发现响应延迟明显上升,QPS 明显下跌,并且持续 5 分钟以上都没有恢复,不符合预期。 图6.5 - 实验报告 5)红蓝对抗常态化 玄图混沌平台还支持发起红蓝对抗,左右互搏通常很枯燥。通过红蓝对抗的方式,增加了故障演练的趣味性和游戏性。

    3.3K20编辑于 2022-01-17
  • 来自专栏SRE转型

    银行运维SRE转型:挑战与应对策略

    涉及关键词:银行运维,SRE转型01.引言随着金融行业的数字化转型,银行的IT架构正逐渐从传统的单体架构转向复杂的分布式系统。 03.银行SRE实践中的挑战与应对在SRE转型过程中,银行可能会面临许多挑战。特别是对于传统银行来说,转型涉及技术、文化和流程等多个层面。 5)服务级别管理的难点设定合理的服务级别目标(SLO)并确保其在实际运营中得到遵守是SRE转型中的一大挑战。 04.银行SRE转型的实施路径通过组织、制度流程和工具的建设,银行能够有效地推动SRE转型,提升系统的可靠性、可用性和自动化水平。 具体如下:1)组织构建与团队组建成功的SRE转型首先依赖于合理的组织结构和团队的建立。在银行SRE转型过程中,组织架构需要打破传统运维和开发之间的壁垒,倡导跨职能协作,打造具有强大执行力的SRE团队。

    65310编辑于 2025-02-08
  • 来自专栏东风微鸣技术博客

    「笔记」某电信公司转型 SRE 运维体系交流

    痛点 •传统竖井式IT架构(封闭、隔离、非标、难运维) •X86 服务器硬件稳定性不足 •开源软件可靠性不足,且不可控 •出了故障,被动救火救不完 转型 由此催生了转型升级的需求: 1.运维智能(SRE )的转型 SRE运维模式 核心职责 保证: 1.业务连续性 2.应用连续性 3.平台连续性 职责分工 1.综合运维岗1.7*24 在线或远程值班 2.业务监控 3.业务运维操作 4.故障处理 5.应急处理 2.运维专业组(由基础架构的:主机、存储、网络、中间件、数据库岗位演化而来) 1.系统架构梳理和优化 2.新建系统评审 3.故障演练 4.新技术引入 5.专业职责和经验赋能给综合运维岗,如提供数据库自动化脚本

    65430编辑于 2022-04-22
  • 来自专栏让技术和时代并行

    2024 年 SRE5 个预测

    进入 2024 年,我对今年 SRE 领域可能会看到的情况提出了 5 个预测: 1️⃣ SRE 的就业市场更加严峻 由于经济状况恶化,许多公司希望削减成本,专门的 SRE 角色可能被视为可牺牲的 - 因此 SRE 人数和预算可能会减少。 我们已经可以在 2023 年被解雇的同事中看到这些趋势,包括像 Google 这样具有 SRE 意识的公司。 这些因素的结合意味着 2024 年 SRE 就业市场可能会大幅收紧。 5️⃣ 平台工程成熟 到 2024 年,通用 API 和自助服务平台下的基础设施、应用程序、数据和服务的统一将会加速。 随着传统 SRE 职位的就业机会减少,许多 SRE 将寻求转型到平台工程职位。平台角色所需的广泛技术技能与许多 SRE 已有的优势非常契合。然而,要成功获得平台工程职位,您还需要提高软件开发技能。

    66610编辑于 2024-02-17
  • 来自专栏五分钟学SRE

    5分钟学SRE-Iptables

    iptable_mangle(别看这个表这么麻烦,咱们设置策略时几乎都不会用到它) 4.Raw表——两个链:OUTPUT、PREROUTING 作用:决定数据包是否被状态跟踪机制处理 内核模块:iptable_raw 5, -p 指定规则协议,如tcp, udp,icmp等,可以使用all来指定所有协议 -s 指定数据包的源地址参数,可以使IP地址、网络地址、主机名 -d 指定目的地址 -i 输入接口 -o 输出接口 5. iptables -A INPUT -p tcp --dport 20:1024 -j ACCEPT iptables -A OUTPUT -p tcp --sport 20:1024 -j ACCEPT 5, __biz=MzA5NTgwNzY1NA==&mid=2247483663&idx=1&sn=26bd3d9d13700a3252b2b565e0a10ff9&chksm=90b8f0c6a7cf79d0cc52c0aa4a6852ab7d0e6fee0285f50029c5e5e912f9683e23bacf3fea5c

    64630编辑于 2023-11-17
  • 来自专栏SRE转型

    银行SRE转型:如何突破传统运维困境,打造高效团队

    摘要:银行SRE团队的建设是应对数字化转型挑战的关键策略。本篇文章详细分析了传统运维与SRE的差异,并通过分阶段的转型路径说明了如何从规划到核心能力建设,再到全覆盖推广,逐步构建高效的SRE团队。 涉及关键词:银行、SRE转型、团队建设01.引言随着金融行业数字化转型的加速,银行面临着越来越复杂的技术环境和运营挑战。 3)银行传统运维和SRE组织的对比03.SRE团队组建面对传统运维模式的转型需求,组建一个高效的SRE团队需要系统的规划和分阶段实施。 核心团队扩展 至5~7人:3人负责监控与自动化工具建设。2人专注故障响应与性能优化。1人作为业务对接专员,确保目标对齐。 展望未来,银行SRE团队将不仅仅是运维的核心力量,更会成为驱动金融科技创新的重要引擎,为银行的数字化转型保驾护航。

    49510编辑于 2025-02-08
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之认识SRE

    5、DevOps和SRE的区别 DevOps核心是做全栈交付,SRE核心是稳定性保障,关注业务所有活动,两者共性是:都使用软件工程解决问题。 如何理解SRE 1、SRE的定义 定义:SRE是一整套稳定性保障的最佳实践体系! 5、MTTR细分指标 6、不同阶段TODO项 Pre-MTBF阶段(无故障阶段):做好架构设计,提供限流、降级、熔断这些 Design-for-Failure 的服务治理手段,以具备故障快速隔离的条件 Availability=Successful request/Total request:从成功请求占比角度出发,对系统稳定性进行评估; 2、衡量稳定性的三要素 衡量指标:如系统请求状态码; 衡量目标:如非5XX 占比达到95%; 影响时长:如非5XX占比低于95%持续10分钟; PS:上述案例只是从请求维度出发,加上时间维度,还有统计周期的因素需要考虑。

    1.8K10编辑于 2022-04-01
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之切入SRE

    理解SRE中的指标和目标 SRE强调稳定性,一般是看整体的系统情况,也就是常说的"3个9"、"4个9"这样可量化的数字。 1、SRE的两个核心 SLI(Service Level Indicator):服务等级指标,即选择哪些指标来衡量稳定性(状态码为非 5xx 的比例); SLO(Service Level Objective 比如请求调用的非 5xx 状态码成功率,就可以归于可用性; 3)Latency-时延:指响应是否足够快,这是会直接影响用户体验的指标。 除了 5xx之外,还可以把 4xx列进来,或增加一些自定义的状态码,看哪些状态是对业务有损的,来保障业务和用户体验; 5)Tickets-人工介入:是否需要人工介入? 5、Google-VALET-dashboard Google的SLI和SLO设定模板链接: https://landing.google.com/sre/workbook/chapters/slo-document

    2.2K10编辑于 2022-04-01
  • 来自专栏XINDOO的专栏

    DevOps和SRE

      之前总是把SRE和DevOps混为一谈,总觉得这两个是同一种东西在不同公司的叫法,知道前两天google又放出了《The Site Reliability Workbook》 ,书中对比了SRE和DevOps 无论是实践还是理论,SRE和DevOps都得用数据说话。 - 在管理生产服务的过程中总是免不了出问题,SRE和DevOps都实行不问责的事故处理方式。 - 归根到底,DevOps或SRE是一种全局工作,两者都希望通过某种特定的方式使得分散的部分组织协同的更好。 速度是SRE和DevOps都想要的结果。    或者,换句话说,SRE相信与DevOps相同的东西,但原因略有不同。 作为一个具体的职业,SRE对他们产生的影响高度敏感,反而对信息壁垒不太关注。 SRE支持持续集成和持续交付不是因为商业需求,而是因为持续集成和持续交付涉及到运维。 换句话说,SRE和DevOps相信同样的事,但不是因为同样的原因。

    97520发布于 2021-01-21
  • 来自专栏云云众生s

    SRE与AI

    当思考Site Reliability Engineering(SRE)以及使软件可靠的一般概念时,很容易看到AI可以发挥重要作用。 以系统监控和服务指标(SLO)为例,这是SRE领域两个常见难题。概念上它们很简单。系统监控就是观察系统输出以确保正常运行。

    56610编辑于 2024-03-28
  • 来自专栏老张的求知思考世界

    SRE实战手册》学习笔记之SRE落地实践

    角色有权调动其他资源,甚至故障升级); 5)与云厂商联合On-Call机制(对于上云企业,和厂商共建故障信息对接群,定时故障演练); 6)终极方案:针对可能出现的故障,落地故障应急SOP,制定“故障应急处理手册 5、On-Call机制的优势 1)最快最好的熟悉系统的方式; 2)培养和锻炼新人以及backup角色; 3)新人融入团队和承担责任的最佳方式; 故障处理:恢复业务为最高优先级 在MTTR环节中,MTTK -15分钟),没有进展也要及时反馈; 2)执行操作或变更事先通报,说明变更操作重点和影响范围; 3)尽量减少对执行者的干扰,让执行者能够聚焦; 4)信息要及时同步给客服、PR及商家和其他各类合作方; 5) 平台服务:包括常见的技术中台(有状态的数据产品研发团队)和业务中台(无状态的具有业务共性的业务研发团队)以及业务前台(H5&前端&移动端产品研发团队)。 总结:SRE = PE + 工具平台开发 + 稳定性平台开发! 业内经验:高效的SRE组织协作机制 SRE落地经验:以赛带练。 1、什么是以赛带练?

    3.4K10编辑于 2022-04-01
  • 来自专栏SRE运维实践

    云原生SRE

    2 为什么需要云原生SRE? 所有的这些,也就促成了云原生SRE的诞生,云原生SRE属于平台级运维,属于数据化运维,如果这些SRE有脑子的话,那么可以摇身一变,变成智能化运维。 ? 高端的产品必然有高端的食材,这就是云原生SRE的舞台。 3 云原生SRE的核心能力 数据化运维,对于各种微服务来说,前端的数据,中间的数据,后端的数据,存储的数据,各种各样的数据,各种各样的APM,收集数据,存储数据,分析数据,利用数据,数据服务化 serverless 所谓的serverless,表面意思是无服务器,初步意思是serverless=faas+baas,也就是函数计算和后端服务,都使用api的方式来进行调用,现在的各种数字化转型

    1.6K30发布于 2020-12-22
  • 来自专栏运维开发故事

    SRE食用指南

    作者:乔克 博客:www.jokerbai.com SRE,多么美妙的一个词,它就像黑暗中的一盏明灯,为运维指出了前进的路。 但是,国内大部分企业的运维人员对 SRE 都不感冒,觉得它就是理论的巨人,根本无法落地实践。 SRE 是谷歌提出的理念,旨在做到以应用为中心,以稳定为前提,做到自动化、智能化、平台化,需要工程师的技术能力拉满: 会产品 会开发 会测试 会运维 会架构 ‍ 大家一看到这,就直接把 SRE 拉黑了, 在我看来,SRE 并非一定特指某个人,而是一群人,如果一个公司只招一个 SRE,要么公司不知道 SRE 是什么,要么公司是傻逼中的战斗机。 ‍ 目前国内玩 SRE 玩的比较好的都是大厂,比如百度、蚂蚁、腾讯等,他们的团队规模都很大,这么大团队,如果每个人都会上面的技能,那会是什么场面?

    41530编辑于 2022-12-06
  • 来自专栏让技术和时代并行

    SRE最佳实践

    什么是站点可靠性工程(SRE)? 站点可靠性工程(SRE)的概念起源于谷歌。这个想法与DevOps的原则密切相关。它是It运营的一种方法。SRE团队使用软件来管理系统、解决问题和自动化操作任务。 为什么SRE很重要?好的SRE团队需要具备哪些条件? SRE就像是软件工程和IT操作之间的桥梁,填补了它们之间的空白。在几乎所有地方,SRE都在为生产系统中的故障做准备时发挥作用。 既然我们知道了为什么SRE很重要,那么让我们继续讨论在拥抱SRE文化时必须遵循的SRE最佳实践。 SRE最佳实践 在实现SRE时,您可能需要一些时间来改进您的策略和定制实践,以满足您的操作需求。 https://stackpulse.com/blog/site-reliability-engineering-sre-what-why-and-5-best-practices/ https:// /blog/5-best-practices-nailing-postmortems

    1.9K20编辑于 2023-03-18
  • 来自专栏SRE运维进阶之路

    SRE 学习路线

    SRE 工作职责 要制定学习路线,首先我们要搞情况 SRE 的工作职责。 SRE(Site Reliability Engineering)站点可靠性工程是一种结合软件工程和运维运营原则的角色和方法论,旨在在系统、服务或产品的设计、开发、部署和运维过程中,采取一系列措施来确保其持续稳定运行 SRE/稳定性保障具体措施包括但不限于: 高可用性: 确保系统能够在大部分时间内持续提供服务,即使在出现故障或意外情况下也能够快速恢复。常见的高可用性措施包括冗余设计、故障转移、负载均衡和容错机制。 SRE 稳定性保障体系 SRE 主要工作是保障稳定性,稳定性就是不出故障,围绕着故障周期,整理出 SRE 稳定性保障体系。 SRE RoadMap 根据工作职责和稳定性保障体系,整理出学习路线。

    78521编辑于 2024-04-23
领券