首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SRE运维实践

    漫谈SLA

    SLA的计算方式,是使用正常运行时间/(正常运行时间+故障时间),当指标为99.99的时候,每年的停机时间只有52.26分钟。。。 用时间指标来衡量系统的可用性,简直就是无效的。。。分布式系统中,部分可用的情况太多了,例如后端有两个rs,而一个rs坏了,那么就会有百分之五十的请求失败。。。这种情况SLA怎么来计算? 在分布式系统中,一般使用请求的成功率来计算SLA,也就是SLA=请求成功/(请求成功+请求失败),在使用这种计算方式的时候,无论你是前端的web服务,还是后端的存储服务,还是离线服务,都是可以很好的计算 在定义SLA的时候,顺便可以定义出监控的主要指标,例如请求的延迟,吞吐量等。 停机外的时间,一般由几种原因引起,大部分都是由于新版本的发布,升级,变更导致,从而。。。 SLA定的太高,那么就要考虑各种因素,假如一个指标是延迟,那么就要考虑分配的资源的地理位置,越近越好。。。DNS?GSLB? 想起DNS和GSLB,有一种故障叫做连锁故障。。。

    3K30发布于 2019-07-08
  • 来自专栏distributed cloud

    Cloud Dedicated Cluster SLA description

    The various products provided in Cloud Dedicated Cluster support a variety of SLAs, which is convenient for customers to find the best balance between usability and cost.

    47310编辑于 2024-06-11
  • 来自专栏云原生技术呱呱

    云计算SLA思考

    SLA(服务等级协议)是什么? 云计算SLA是用户签订云平台用户协议的一部分,常认为使用云服务的同时SLA并生效,SLA一般针对云服务的可用性的协议:可以参考:https://www.huaweicloud.com/declaration /sla.html1 定义服务服务周期服务周期总时间服务不可用*(具体业务可定义判定依据)服务不可用的判定是业务相关,有几种常见判定方式,则认为此时间内服务不可用 1)单位时间内,因服务端访问失败 1 服务端视角依据:监控+告警指标,类似模调的被调端缺陷:不够准确,未通过系统接入层的问题会被忽略,却实实在在影响了用户业务思考:接入层需要做得更薄,可用性有更高要求异常(系统内部错误、业务错误、时延超预期 SLA应该是服务日志统计+客户端埋点2种方式独立实现,取长补短

    2.1K30编辑于 2022-07-15
  • 来自专栏PM吃瓜(公众号)

    SLA是什么?

    (1).衡量各项动态指标满足 SLA 的定义; (2).检査各项被衡量的指标,并进行问题诊断和根源分析; (3).采取适当的行动解决问题; (4).为满足 SLA 而持续维护及改进服务行为。 (4).服务级别指标:对服务供应方工作作的考核方法,通常以百分比表达。 (5).计量公式:描述衡呈服务的数学公式。 (6).测量间隔 / 报告周期:判断 SLA 足否被满足的测量周期。 (8).沟通:规定在服务供应方打破 SLA 时,应在多长时间内通知何人。这包括在打破 SLA 时的升级行为和管理。 除了上述技术性的描述外,作为条款性文件,SLA还应包含例外情况、奖惩措施及计算方法。 服务级别指标:响应错误小于总连接数的 1%。 响应时间:小于等于 5 秒。 数据源:测量指标将由 XX 自动化工具完成。内容包括测量点响应时间值及包含日期和时间的时间戳信息。 例外情况及奖惩措施:(略)

    7.5K20发布于 2020-06-16
  • 大数据指标SLA,那些你以为懂了其实没懂的事

    大数据指标SLA,那些你以为懂了其实没懂的事——Echo_Wish:咱聊点接地气、能落地的大数据监控经很多做大数据的同学,经常会被一句话弄得“精神内耗”:“这个指标为什么没达标?SLA又掉了!” 说实话,刚入行的时候我也懵:指标到底该怎么定义?SLA应该怎么算?监控到底监啥?怎么监控才算“有脑子”?今天咱就不装深沉,带你把这些概念从云端拉下来,变成落地、能用、看得懂的东西。 你会看到的内容是:✔大数据系统常见指标到底有哪些?✔SLA到底是什么鬼?怎么量化?✔监控怎么做才算靠谱?✔给你几段代码示例,让你回去就能落地准备好了吗?咱开聊! 在大数据场景里,我们大概可以把指标分4类:①计算类指标(SparkFlinkMapReduce)指标解释JobDuration作业总耗时(最常用SLA指标)Stage/TaskDuration可用于定位瓶颈阶段 SLA的制定应该是:资源+架构+任务本身能力的综合产物,而不是拍脑袋。③指标不在多,而在“关键且可行动”一个指标好不好,有一个简单标准:指标是否能指导运维或开发去解决问题?

    46110编辑于 2025-12-07
  • 来自专栏前端杂货铺

    SLA通俗理解

    SLA通俗理解 SLA 表征服务方与客户间的服务等级协议,定义服务方需保证的服务质量以及不达标情况下的服务补偿,在SRE领域,SLA 细分为 SLI、SLO 与 SLA: SLI,服务质量指标,服务的某项质量的一个具体的量化指标 由于SLA是交付给客户的协议,因此 SLA 中的 SLO 是需要可直观被用户感知的,直接影响用户体验的,这是 SLA 隐含的应有之义。 ,针对开放服务需挑选直接与用户使用相关的指标、下游对服务的依赖能力等。 响应时间采用如下策略: 服务大盘使用历史 TP<90> 分位数作为标杆值,计算 SLO 重点接口使用约定指标,限定计算 最后 基于服务每个月的 SLA,可总体了解服务的性能及稳定性。 附件: 草拟网关服务的 SLA: 网关服务等级协议 本服务等级协议(Service Level Agreement,简称 “SLA”)规定了网关向客户提供的 API 网关的服务可用性等级指标及赔偿方案。

    8.7K10编辑于 2023-04-27
  • 来自专栏个人总结系列

    数据SLA服务保障

    一.背景         团队成员在数据SLA服务保障缺乏意识认识、行动的执行策略、以及事故的档案管理、进行经验积累与复盘。基于时间推演,复盘总结不断迭代完善,最终目标是达到服务可用性在4个9。 SLA服务保障体系 SLA体系 (1).png 三. 前置条件 1.如何意识到重要性 从告警信息开始,含技术告警余人肉通知,电话与短信告警信息类似SOS标识(告警的级别与收敛)。 SLA的影响成本也是从异常发生的时间开始计算(含休息时间)。      2.如何找到人 在职期间(含请假时间),owner对数据服务可用性负全责。 其次推动开展基于SLA做复盘管理,迭代与完善。 3.如何响应 AB机制 横向选择:B角色同职级担任,进行工作代理与SLA服务保障。 SLA操作流程             操作流程:主要owner操作完成,若B角进行操作,需要提供对应自己的操作文档,未提供操作文档的,算A角失位。同时需要远程协助与操作指引,否则A角失位责任。

    2.7K50编辑于 2022-05-25
  • IP查询服务SLA监控怎么做?延迟、错误率、命中率指标设计指南

    今天我想结合一次真实的故障复盘,聊聊如何为IP查询服务设计一套完整的SLA(服务等级协议)监控体系。 这次事件让我意识到:IP查询服务的SLA监控不能只关注"通不通",更要关注"快不快"和"准不准"。 二、三大核心监控指标基于SRE(站点可靠性工程)领域的RED方法论,IP查询服务需重点监控以下维度:1.延迟指标核心阈值:P99<50ms(核心场景)采集方式:Nginx层:$upstream_response_time 三、多维度监控体系搭建实操第一步:指标采集层配置展开代码语言:TXTAI代码解释#自定义IP查询服务指标-name:ip_query_duration_secondstype:histogramlabels 五、IP查询服务SLA监控核心要点总结监控维度关键指标推荐阈值告警级别核心目标延迟P99响应时间<50msP0保障用户体验错误5xx错误率<0.1%P0确保服务稳定命中整体缓存命中率>85%P1控制运营成本关键实操建议

    20710编辑于 2026-03-12
  • 来自专栏用户8851537的专栏

    谈谈云服务和 SLA

    重要的是,稳定性是一个长期指标,在绝大多数情况下,使用云服务的稳定性都是高于自己搭建服务的。 安全性 首先,不存在 100% 安全。 讲讲 SLA(可用性) 正如不存在 100% 的安全一样。谈 SLA、谈可用性,首先必须承认服务一定会有不可用的时候,只是不可用的程度和时长而已。 一个东西是不是高可用,直接问他 SLA 有几个 9 就好了: | 可用性等级 | Uptime | 每年容许 Down Time | 每天容许 Down Time | | --- | --- | --- 一家公司如果只靠堆运维、三班倒、7x24 值班、电脑不关机,也只能够维持三个 9 的 SLA。 除了堆人,15 分钟恢复服务的关键点是 **常驻** 和 **热备**。 SLA 要想迈向 4 个 9,自动化运维是不可或缺的。 3 个小时 3 个小时是个虚数,但是大体来讲,如果一个灾难性故障 3 个小时修不好,大家对你的信任就归 0 了、你就告别互联网了。

    2.8K20发布于 2021-09-01
  • 来自专栏01二进制

    写代码也要讲规矩——SLA

    如今,你再去买车,你会关心百里加速耗时多少,油耗多少,制动距离等等「指标」,因为这些「指标」让我们对最终交付给我们的车辆能提供的服务有一个明确的认识和期望,开车的时候心里更踏实。 SLA,是服务供应商与客户之间的服务等级协议,它定义了服务供应商应保证的服务质量,以及在服务不达标情况下的服务赔偿。SLA在定义上又细分为SLI、SLO与SLA。 SLI,服务质量指标,服务的某项质量的一个具体的量化指标。 SLO,服务质量目标,服务的某项SLI的具体目标值,或者目标范围。 SLA,服务质量协议,描述在服务不达SLO情况下的后果。 虽然SLA常见于公司与外部供应商之间,但事实上SLA也可以用于公司内部两个部门,两个产品之间。公司内部可能不会涉及到服务赔偿,因此内部SLA更关注于SLO的达标情况。 客户更换服务商 在上面这个SLA的例子中,SLO(指标)就是男孩给出的秒回承诺,秒回(≈0ms)就是SLI(指标),「超过规定时间就送礼物」是未达标的后果,因此SLA又可以抽象成 SLA = SLO +

    1.7K20编辑于 2022-12-05
  • 来自专栏喔家ArchiSelf

    浅析面向云架构的SLA

    SLA是企业服务的需求,通常采用提供者和消费者之间的契约,并对不遵守的行为进行处罚。具体和可测量的 SLO是用于测试 SLA 是否满足的单个度量标准。 很多云服务的SLA一般在99.95% ~99.99%之间,而且不保证性能。 可靠性和可用性 企业级应用 SLA 的可用性可能是技术上的挑战。 软件定义的SLA 软件定义的SLA可能是个潜在的解决方案,提供了一种新的设计模式,将 SLA和 SLO形式化为云服务软件组件中的可配置参数。然后,这些组件管理基础资源,以满足特定的SLO 需求。 公共云服务引入了根本的经济转变——价格/性能指标需要考虑到工作负载和运行时间。 软件定义SLA的运行时配置提供了一个对确切性能指标进行管理的机会,而不是基于原始硬件或预先打包SLA的物理特性。

    2.5K21发布于 2020-03-26
  • 来自专栏云云众生s

    SLA、SLO与SLI的区别

    SLI 违规表示特定性能指标出现偏差,需要调查和改进。 什么是 SLA(服务等级协议) 从本质上讲,服务等级协议 (SLA) 定义了服务提供商和客户之间的期望。 理解和应对这些挑战对于 SLA 的成功和有效性至关重要: 定义精确的指标:准确量化关键绩效指标是定义 SLA 的一项基本挑战。此过程需要明确的定义和测量,以符合客户期望和运营能力。 集体影响 集成后,SLA、SLO 和 SLI 形成一个全面的服务卓越框架。SLA 提供合同基础,SLO 设定性能目标,SLI 提供衡量成功的有形指标。 在这里,我们深入探讨了一个概述 SLI、SLO 和 SLA 的示例,并使用了实际场景。 SLI:服务级别指标 SLI 用作衡量 API 性能和可靠性的指标。 对于指定跨不同用户群体的性能标准的 SLA 而言,这一点尤为重要。 性能指标:Checkly 提供详细的性能指标,例如页面加载时间,这对于满足与网站速度和响应能力相关的 SLA 至关重要。

    2.2K10编辑于 2024-06-13
  • 来自专栏windealli

    从单个服务看SLA保证

    引言 在微服务架构中,谈到SLA保证,我们更多是从宏观的角度来需求解决方案。比如,通过合理服务拆分来增加系统整体的可维护性;通过多实例部署来保证系统的灾备。 但是单个服务是可靠性、性能其实也是保证系统SLA的重要一环。 本文将介绍提升单体服务SLA的一些设计原则/方法 1. 接口无状态是保证系统SLA的基本要求。 当接口有状态时,就必须在服务器端维护状态信息。如果客户端在多个服务器之间切换,那么维护这些状态信息将会变得非常困难。 例如,通过添加合适的日志记录功能、性能指标监测和警报机制、信号处理和控制反馈机制等。 应用异常监控工具:可以使用大量的开源或商用工具来监控单体服务,如Zabbix和Grafana等。

    67330编辑于 2023-10-13
  • 来自专栏HHTjim'S 部落格

    简单好用的SLA探活工具 - EaseProbe

    简单好用的SLA探活工具 - EaseProbe 作者:matrix 被围观: 11 次 发布时间:2022-10-02 分类:零零星星 | 无评论 » SLA探活的需求很广泛,简单的可以自己实现 # 首次启动 $ docker run -d -p 8181:8181 --name sla -v $(pwd)/config.yaml:/opt/config.yaml megaease/easeprobe # 重启 $ docker restart sla # 关闭 $ docker stop sla 查看状态 访问http://HOST:8181`就能看到web监控面板,且支持api接口http ://HOST:8181/api/v1/sla` 附.

    2.9K20编辑于 2022-10-04
  • 来自专栏Django Scrapy

    mysql安装GENERALMyISAMSAFETYDATA STORAGEBINARY LOGGINGREPLICATIONCACHES AND LIMITSINNODBLOGGINGFOR SLA

    MYSQL数据库安装文档 本文档是MYSQL-5.6.25在CENTOS 6.5 64位版本上安装的文档,经过测试并没有发现问题。 安装以前先查看服务器里是否有老版本的MYSQL已经被安装了 rpm -qa |grep mysql 如果有就删除掉旧版本的MYSQL即可 rpm -e (上面那条命令得到的信息) --nodeps 一.解压 软连接 改目录名称 解压 tar xzvf mysql-5.6.25-linux-glibc2.5-x86_64.tar.gz 改目录名称 mv my

    1.1K70发布于 2018-04-11
  • 来自专栏全栈程序员必看

    LoadRunner教程(16)-LoadRunner SLA分析「建议收藏」

    SLA中定义的度量数据进行比较,并将分析结果显示在分析器中,SLA三种状态分别是:a.pass:表示SLA获得该项测试数据,并且该数据达到目标要求;b.fail:表示SLA获得该项测试数据,但是测试结果未达到目标要求 ;c.no data:表示SLA未获得该项测试数据,所以无法确定是通过还是失败。 SLA配置步骤如下: 1、在摘要视图中单击如图7所示的按钮: 2、单击new,定义SLA目标,如图8所示: 3、设置待度量的目标。这里以事务响应时间为例,如图9所示。 如果选择按平均事务响应时间来度量,则如图14所示: 选择负载标准,即通过什么指标来衡量事务响应的变化情况,以运行的虚拟用户数为例,需要设置在不同运行虚拟用户数下事务的响应时间。 如果绿色的线超过了黑色线则说明该点的SLA失败,那么SLA的状态将会置为失败。反之则成功,SLA的状态将置为通过。

    1.6K20编辑于 2022-08-31
  • 来自专栏Zabbix中国官方

    基于Zabbix的SLA监控体系构建与实践

    SLA SLA,全称是Service Level Agreement, 是用来管理服务的表现。在Zabbix中我们可以把自己的应用监控起来,还可以为它建立SLA。 为了实现SLA,我们需要建立Services,它是Trigger和SLA之间的桥梁。 A 我假设这样一个场景来说明SLA的实践。 04 第四步:最终形成我们定义的SLA 上述所说的parent service就是最终的SLA。 打开Services / SLA菜单,新建一个SLA。如下图: 在这里SLO就是你定义的最低百分比。 A 我在做5.0升级到6.0,我们公司的SLA就成了这样: 绝大部分的SLA确实转换成功的,但我也发现有2、3个转换错了,好多SLA都无法阅读,而且按我的理解可能一个Trigger引发两个SLA变动,甚至没有一个 SLA会受影响。

    48500编辑于 2025-06-26
  • 来自专栏IT运维技术圈

    老杨必须给你整明白SLA、SLO、SLI这三玩意

    SLA是服务协议,SLO是目标,SLI是指标。 Google SRE书里定义SLI是用户体验的量化,SLO是基于SLI的目标,SLA是合同承诺。 SLA:签协议 SLA是SLO的合同版,加罚则。 阿里云SLA数据:ECS99.95%可用,低赔10%。 例,阿里云模板。 落地方式: • 用探针(如黑盒监控 + 客户端 SDK 日志)采集用户端指标。 • 大屏实时展示 SLI。 • SLA 报告直接对接销售/客户管理部门。 落地方式: • IT 运维部门用 Zabbix/Prometheus 监控服务指标。 • 对外 SLA 写进企业 IT 使用手册。 • 每月自动生成报表,发给 HR 或行政部门。 结尾 SLI 是温度计(量化指标), SLO 是体温正常范围(内部目标), SLA 是对病人说的保证(对外承诺)。 连技术业务,用它们量运维。

    1.4K10编辑于 2025-10-09
  • 来自专栏云计算D1net

    你的云计算SLA是否是可协商的?

    虽然有部分SLA比其他SLA更为灵活,但并非所有SLA都是一成不变的。和云供应商一起查看用户的要求,看看是否有可以协商的空间。 服务水平协议是开展云业务的基石。 公共云供应商可能会提供如下产品和服务: 每月计算可用性SLA为99%,甚至可能会提高至95%。 可用性百分比指标通常是不可协商的,一般由供应商根据其底层基础设施可用性指标进行估算。 即便已经提供了那些规模不同的环境,IBM还允许用户针对灾难恢复、性能以及正常运行时间等指标来挑选不同的特性。 更聪明地花钱 即便用户无法对云计算SLA与供应商进行协商,认真阅读印刷精美的云服务协议并做出谨慎选择也是能够产生不菲效益的。企业用户可以横向比较性能指标而无需真正划出比较基线,Herbert说。 云计算SLA中的正常运行时间可能不是你心目中的理想指标,“但是这些数值要优于客户在他们自有数据中心的所能达到的表现,” Herbert说。

    1.9K40发布于 2018-03-26
  • 来自专栏DataFunTalk

    虎牙实时计算平台服务的SLA之路

    本次的分享题目为虎牙实时计算SLA实践之路,主要分为以下几个部分: 平台介绍 核心SLA定义 核心能力建设 未来展望 01 平台介绍 1. 此外,核心SLA使得平台的覆盖面更广,比如用户的代码导致的时延问题,平台也要去帮助用户进行代码的优化。而通过关注延时达标率SLA,平台团队可以较为灵活地选择对SLA影响最大的问题优先解决。 任务分析能力 7.png 在丰富专业指标的基础上,平台提供了任务分析的能力,包括异常分析、延时分析和资源分析,针对一些典型问题平台给出判断。 在运行时有一个性能诊断引擎,根据指标输入因子,通过一些规则引擎进行性能诊断。当出现性能问题时,引擎会给出资源扩缩容的建议。当获取到扩缩容建议后,平台会提供动态扩缩容的能力。 A:我们建立了一个规则引擎,根据过往的经验做了规则的配置,然后根据这些指标判断我们的算力够不够,算不算高负载,还要根据数据的延迟来判断。

    1.6K61编辑于 2022-04-15
领券