松江网站建设公司怎么样,张家港网站建设模板,wordpress 文章加图片,昆明优化网站促销活动开始10分钟#xff0c;商品服务挂了。
然后呢#xff1f;订单服务调商品服务超时#xff0c;线程池打满。用户服务调订单服务超时#xff0c;线程池也打满。整个系统像多米诺骨牌一样全倒了。
这就是经典的雪崩效应。
解决方案#xff1a;熔断和降级。
雪崩是怎么…促销活动开始10分钟商品服务挂了。然后呢订单服务调商品服务超时线程池打满。用户服务调订单服务超时线程池也打满。整个系统像多米诺骨牌一样全倒了。这就是经典的雪崩效应。解决方案熔断和降级。雪崩是怎么发生的用户请求 │ ▼ ┌─────────┐ 调用 ┌─────────┐ 调用 ┌─────────┐ │ 用户服务 │ ────────▶ │ 订单服务 │ ────────▶ │ 商品服务 │ ← 挂了 └─────────┘ └─────────┘ └─────────┘ │ ▼ 线程等待超时 │ ▼ 线程池满了 │ ▼ 订单服务也挂了 │ ▼ 用户服务也挂了一个服务挂全链路崩。熔断器原理熔断器有三种状态┌─────────────────────────────────────┐ │ │ ▼ │ ┌───────┐ 失败率超阈值 ┌───────┐ 冷却后 ┌───────────┐ │ 关闭 │ ────────────▶ │ 打开 │ ───────▶ │ 半开 │ │ CLOSED│ │ OPEN │ │ HALF-OPEN │ └───────┘ └───────┘ └───────────┘ ▲ │ │ 成功率恢复 │ └──────────────────────────────────────────┘CLOSED正常状态所有请求通过OPEN熔断状态请求直接失败不调下游HALF_OPEN试探状态放一部分请求过去试试Sentinel实战阿里开源的Sentinel生产环境用得最多。基本配置dependencygroupIdcom.alibaba.csp/groupIdartifactIdsentinel-core/artifactIdversion1.8.6/version/dependency// 定义资源SentinelResource(valuegetProduct,blockHandlergetProductBlockHandler,fallbackgetProductFallback)publicProductgetProduct(LongproductId){returnproductService.getById(productId);}// 熔断/限流时的处理publicProductgetProductBlockHandler(LongproductId,BlockExceptione){log.warn(getProduct被熔断: {},productId);returnProduct.defaultProduct();// 返回默认商品}// 异常时的降级publicProductgetProductFallback(LongproductId,Throwablet){log.error(getProduct异常降级: {},productId,t);returnProduct.defaultProduct();}熔断规则// 配置熔断规则DegradeRulerulenewDegradeRule();rule.setResource(getProduct);rule.setGrade(CircuitBreakerStrategy.ERROR_RATIO.getType());// 按错误率熔断rule.setCount(0.5);// 错误率50%rule.setMinRequestAmount(20);// 最小请求数rule.setTimeWindow(10);// 熔断时长10秒rule.setStatIntervalMs(10000);// 统计时间窗口DegradeRuleManager.loadRules(Collections.singletonList(rule));参数解释10秒内请求超过20次且错误率超过50%触发熔断熔断10秒后进入半开状态限流规则FlowRulerulenewFlowRule();rule.setResource(getProduct);rule.setGrade(RuleConstant.FLOW_GRADE_QPS);// 按QPS限流rule.setCount(100);// 每秒100次FlowRuleManager.loadRules(Collections.singletonList(rule));Resilience4j实战Spring Cloud官方推荐比Hystrix轻量。熔断配置resilience4j:circuitbreaker:instances:productService:sliding-window-type:COUNT_BASEDsliding-window-size:10minimum-number-of-calls:5failure-rate-threshold:50wait-duration-in-open-state:10spermitted-number-of-calls-in-half-open-state:3参数解释基于最近10次调用统计至少5次调用才开始计算失败率超过50%触发熔断熔断10秒后半开半开状态放3个请求试探代码使用CircuitBreaker(nameproductService,fallbackMethodgetProductFallback)publicProductgetProduct(LongproductId){returnrestTemplate.getForObject(http://product-service/products/productId,Product.class);}publicProductgetProductFallback(LongproductId,Exceptione){log.warn(商品服务熔断返回默认值: {},productId);returnProduct.defaultProduct();}组合使用CircuitBreaker(nameproductService,fallbackMethodfallback)RateLimiter(nameproductService)Retry(nameproductService)Bulkhead(nameproductService)publicProductgetProduct(LongproductId){returnproductService.getById(productId);}执行顺序Retry → CircuitBreaker → RateLimiter → Bulkhead → 实际调用降级策略策略一返回默认值publicProductgetProductFallback(LongproductId,Exceptione){// 返回一个空商品让页面能展示returnProduct.builder().id(productId).name(商品加载中...).price(BigDecimal.ZERO).stock(-1)// -1表示库存未知.build();}策略二返回缓存数据publicProductgetProductFallback(LongproductId,Exceptione){// 从本地缓存取ProductcachedlocalCache.get(product:productId);if(cached!null){cached.setFromCache(true);// 标记来自缓存returncached;}// 缓存也没有返回默认值returnProduct.defaultProduct();}策略三静态数据兜底publicListProductgetHotProductsFallback(Exceptione){// 返回预先准备好的静态热门商品returnstaticHotProducts;}适合首页推荐、热门榜单这类场景。策略四功能降级publicOrderResultcreateOrder(Orderorder){// 正常流程实时校验库存// 降级流程异步校验先让订单创建成功if(isProductServiceDown()){// 商品服务挂了跳过库存校验order.setStockCheckSkipped(true);// 发消息异步补偿mqTemplate.send(stock-check-later,order);}returnorderService.create(order);}线程池隔离另一种防雪崩的方式线程池隔离。HystrixCommand(commandKeygetProduct,threadPoolKeyproductPool,threadPoolProperties{HystrixProperty(namecoreSize,value10),HystrixProperty(namemaxQueueSize,value20)})publicProductgetProduct(LongproductId){returnproductService.getById(productId);}每个服务用独立线程池一个服务慢不影响其他。Resilience4j用Bulkhead实现resilience4j:bulkhead:instances:productService:maxConcurrentCalls:10# 最大并发数maxWaitDuration:100ms# 等待时间超时配置超时配置很关键配错了熔断器不生效。调用链超时用户 → 网关(10s) → 用户服务(8s) → 订单服务(5s) → 商品服务(3s)原则上游超时 下游超时常见配置# Feign客户端feign:client:config:default:connectTimeout:2000readTimeout:5000# RestTemplateBean public RestTemplate restTemplate(){HttpComponentsClientHttpRequestFactory factory new HttpComponentsClientHttpRequestFactory(); factory.setConnectTimeout(2000); factory.setReadTimeout(5000); return new RestTemplate(factory);}超时 vs 熔断请求超时 5s熔断冷却 10s 场景商品服务响应变慢6s 1. 请求发出 2. 等待5s超时失败 3. 触发fallback 4. 统计失败率 5. 失败率超阈值熔断打开 6. 后续请求直接走fallback不用等5s了 7. 10s后半开试探 8. 如果成功关闭熔断熔断的意义快速失败不浪费时间等超时。监控告警熔断了要能看到。Sentinel Dashboardjava -jar sentinel-dashboard-1.8.6.jar --server.port8080# 应用接入java -Dcsp.sentinel.dashboard.serverlocalhost:8080\-Dproject.nameorder-service\-jar order-service.jarPrometheus指标Resilience4j原生支持Prometheusmanagement:endpoints:web:exposure:include:health,prometheus,circuitbreakers# 熔断器状态 resilience4j_circuitbreaker_state{nameproductService} # 失败率 resilience4j_circuitbreaker_failure_rate{nameproductService} # 调用次数 resilience4j_circuitbreaker_calls_total{nameproductService}运维实践我们有几个服务部署在不同城市的机房需要统一监控熔断状态。用星空组网把各地节点连起来后Prometheus可以直接采集所有节点的metrics监控配置简单多了。总结熔断降级核心要点机制作用配置要点熔断快速失败失败率阈值、冷却时间限流保护后端QPS/并发数降级用户体验返回什么数据隔离防止蔓延线程池大小超时及时释放上游下游降级策略选择策略适用场景返回默认值非核心数据返回缓存数据时效性不敏感静态数据榜单、推荐位功能降级可延后处理的业务直接失败核心功能必须告知用户系统设计的时候就要想好哪些功能可以降级降级后返回什么。别等出事了才想。熔断降级这块有实战经验的欢迎交流~