超碰人人人人人,亚洲AV午夜福利精品一区二区,亚洲欧美综合区丁香五月1区,日韩欧美亚洲系列

LOGO OA教程 ERP教程 模切知識交流 PMS教程 CRM教程 開發(fā)文檔 其他文檔  
 
網(wǎng)站管理員

[點晴永久免費OA]滴滴崩潰,損失幾個億的k8s 方案

freeflydom
2023年12月2日 10:13 本文熱度 1020

起因從震驚吃瓜開始

從 2023 年 11 月 27 日晚上 10 點左右截止 2023 年 11 月 28 日中午 12 點期間,DD發(fā)生了長達12小時的p0級bug,造成的影響大家通過各種平臺或者親身經(jīng)歷如何我就不多說了,單說對企業(yè)造成的損失超千萬單和超4個億的交易額。我只想說不愧是大企業(yè),這也太狠了

簡單整理下崩潰原因

DD自己在微博上說的是底層系統(tǒng)軟件發(fā)生故障,身為底層開發(fā)的我對此還是挺感興趣的,所以簡單吃了下瓜,網(wǎng)傳是滴滴未正常升級k8s導致集群崩潰,且由于集群規(guī)模過大(相信這么大規(guī)模集群一定跑著相當多的業(yè)務)導致造成影響肯定很大

DD在微博的致歉中說是底層系統(tǒng)軟件故障

網(wǎng)傳是因為升級導致的故障

恰巧DD技術在公眾號上曾經(jīng)發(fā)布過一篇# DD彈性云基于 K8S 的調(diào)度實踐文章,文章里介紹了他們選擇的升級方案,以及如此選擇升級方案的原因

DD的升級方案

dd 不愧是大廠,還有這么老版本的k8s集群,估計是很早就開始引入k8s集群了。

通用的解決方案

首先兩種方案的對比,DD已經(jīng)在他們的技術文章中給明了優(yōu)缺點,身為一個菜鳥我估計是不適合評論別人的方案,所以我只從我實際工作中遇到類似的問題是如何解決的,

問題一 集群規(guī)模過大

kubernetes 官方推薦了5000個node 上限,雖然并不代表超出上限一定會出問題,但是此次事故明顯告訴我們超出上限的集群一旦發(fā)生事故有多可怕了

通用的方案

實際生產(chǎn)環(huán)境當集群規(guī)模達到上限我們一般是怎么處理的呢,很簡單——聯(lián)邦集群,讓多個集群打通成聯(lián)邦集群,網(wǎng)絡和k8s資源互通,提高了業(yè)務容納的上限,同時將風險分攤給多個集群。增加了些許運維壓力,但是明顯要比瘋狂給單個集群加節(jié)點要安全多了

問題二 如何選擇升級方案

目前我遇到的大規(guī)模集群,基本上都是像dd 這樣選擇晚上的窗口期升級的,這點倒是沒什么可說的,但是很少有直接原地升級的,基本上都是有備份升級的,流量也不會直接全部涌入升級后的集群的,要經(jīng)過逐步驗證才會切換到新集群的,原地升級我只能說是藝高人膽大了。

通用的方案

從dd 的技術博文上能猜出來,原地升級的方案肯定是經(jīng)過他們內(nèi)部驗證了,最起碼短期內(nèi)是沒出問題,才敢拿到生產(chǎn)集群上實踐,但是很抱歉生產(chǎn)集群的扛風險能力還是太小了,所以還是建議老老實實選擇替換升級的方案吧

問題三多控制節(jié)點

最后一點就是網(wǎng)傳的控制節(jié)點崩潰的問題,我覺得這太離譜了,這種大廠應該知道多master 節(jié)點,以及master 不在同一機房的問題吧,不說多數(shù)據(jù)中心方案,基本的災備思想還是要有的吧

胡言亂語

最近好像很多大廠的產(chǎn)品崩潰,先是阿里后是滴滴,加上最近的裁員潮,網(wǎng)上流出了很多笑話最知名的莫過開猿節(jié)流,降本增笑。誠然互聯(lián)網(wǎng)企業(yè)最大成本就是人力成本,當業(yè)務成熟后開掉開發(fā)人員來降低成本似乎是一個不錯的方案。但是當企業(yè)剩下的大部分都是ppt高手,真正干活的人黯然退場。如此這般難免會遇到這樣那樣的技術問題。希望老板領導們能慎重裁員,尊重技術。

最后希望各位程序員技術越來越穩(wěn),默默奉獻的同時也能有自己的收獲


作者:萌萌醬
鏈接:https://juejin.cn/post/7306832876381437991
來源:稀土掘金
著作權歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權,非商業(yè)轉(zhuǎn)載請注明出處。



該文章在 2023/12/2 10:21:55 編輯過
關鍵字查詢
相關文章
正在查詢...
點晴ERP是一款針對中小制造業(yè)的專業(yè)生產(chǎn)管理軟件系統(tǒng),系統(tǒng)成熟度和易用性得到了國內(nèi)大量中小企業(yè)的青睞。
點晴PMS碼頭管理系統(tǒng)主要針對港口碼頭集裝箱與散貨日常運作、調(diào)度、堆場、車隊、財務費用、相關報表等業(yè)務管理,結(jié)合碼頭的業(yè)務特點,圍繞調(diào)度、堆場作業(yè)而開發(fā)的。集技術的先進性、管理的有效性于一體,是物流碼頭及其他港口類企業(yè)的高效ERP管理信息系統(tǒng)。
點晴WMS倉儲管理系統(tǒng)提供了貨物產(chǎn)品管理,銷售管理,采購管理,倉儲管理,倉庫管理,保質(zhì)期管理,貨位管理,庫位管理,生產(chǎn)管理,WMS管理系統(tǒng),標簽打印,條形碼,二維碼管理,批號管理軟件。
點晴免費OA是一款軟件和通用服務都免費,不限功能、不限時間、不限用戶的免費OA協(xié)同辦公管理系統(tǒng)。
Copyright 2010-2025 ClickSun All Rights Reserved