崗位職責(zé):
1. 負(fù)責(zé)公司平臺級核心服務(wù)的運維與團(tuán)隊管理,提升業(yè)務(wù)的穩(wěn)定性、可靠性與工程效率;
2. 主導(dǎo)應(yīng)用上線評審、發(fā)布交付、配置變更、狀態(tài)監(jiān)控、容量管理、故障響應(yīng)等關(guān)鍵流程;
3. 參與核心服務(wù)的高可用性設(shè)計、性能優(yōu)化和容量規(guī)劃,確保業(yè)務(wù)平滑擴(kuò)展與高效迭代;
4. 主導(dǎo)線上重大問題排查、故障恢復(fù)與復(fù)盤優(yōu)化,推動故障演練、應(yīng)急預(yù)案與SOP建設(shè);
5. 負(fù)責(zé)容器化環(huán)境下高可用管理,包括限流、降級、容錯、容災(zāi)等方案制定與落地;
6. 推動運維流程標(biāo)準(zhǔn)化、文檔化、平臺化與自動化建設(shè),提升整個團(tuán)隊的運維交付效率與安全保障能力。技能要求:
- 本科及以上學(xué)歷,6 年以上互聯(lián)網(wǎng)公司運維經(jīng)驗,1 年以上技術(shù)團(tuán)隊管理經(jīng)驗;- 熟悉微服務(wù)架構(gòu)、分布式系統(tǒng)部署、兩地三中心、業(yè)務(wù)多活等架構(gòu)模型;
- 精通 Kubernetes 生態(tài)及其組件運行原理,具備大規(guī)模生產(chǎn)環(huán)境下的使用、排錯和性能調(diào)優(yōu)經(jīng)驗;
- 熟練掌握 Python / Go / Shell 等腳本語言,能獨立開發(fā)運維工具或服務(wù);
- 熟悉并應(yīng)用過 SRE 運維體系(如 SLO/SLA、Error Budget、可觀測性、自動化響應(yīng));
- 有強系統(tǒng)架構(gòu)思維,具備技術(shù)推進(jìn)、流程優(yōu)化和平臺工程化能力;
其他要求:
- 有 PostgreSQL / Doris / Kafka / Nacos 等組件運維經(jīng)驗;
- 具備 Service Mesh 實戰(zhàn)(如 Istio)、Sidecar 模型理解;
- 有 DevOps 平臺工具自研或二次開發(fā)經(jīng)驗;