崗位要求
1、計算機科學、信息技術或相關領域的本科及以上學歷,五年以上較大規(guī)模業(yè)務平臺維護經驗;
2、精通Linux操作系統(tǒng)維護、內核性能調優(yōu)、TCP/IP、HTTP等協(xié)議,有良好的網絡、數(shù)據(jù)存儲、計算機體系結構方面的知識 ,具備的很強的技術敏感度和故障排查經驗;
3、熟練使用Python/Shell/Go等至少一種語言,可開發(fā)自動化運維腳本及工具。
4、熟悉網絡協(xié)議,熟悉常見的網絡問題分析和處理,熟悉主機路由、防火墻配置及維護;
5、有nginx、web server、分布式系統(tǒng)、Redis、RocketMQ、ELK、Mysql等主流應用組件的高可用架構設計以及維護經驗; 熟悉prometheus/ELK/全鏈路端到端監(jiān)控體系;熟悉騰訊云/阿里云/天翼云等云廠商產品的運維;
6、熟悉容器化(k8s/docker)架構及常見云平臺運維技術,有較大規(guī)模生產環(huán)境的k8s容器集群部署和維護經驗者優(yōu)先;
7、工作細致、善于思考,有很強的問題分析和解決的能力;強烈的責任心、良好的溝通和協(xié)調能力、極強的業(yè)務推動能力、勇于接受挑戰(zhàn);具備較強的文檔編寫能力。
8、愿意接受7*24小時根據(jù)監(jiān)控系統(tǒng)或人工報障信息,隨時處理線上系統(tǒng)故障,保障系統(tǒng)穩(wěn)定運行。
崗位職責
1. 主導故障與風險全流程管控:根據(jù)公司運維管理辦法,組織運維、研發(fā)等跨團隊排查定位現(xiàn)網故障、性能瓶頸及安全風險,推動快速恢復;負責故障根因分析并輸出報告,提煉改進措施形成閉環(huán)管理。
2. 負責隱患治理與架構優(yōu)化:定期開展系統(tǒng)隱患巡檢與容量評估,制定并推動架構瓶頸、資源冗余等問題的優(yōu)化方案落地;參與服務可運維性設計評審和運維架構迭代,推動高可用、容器化、彈性伸縮等技術落地提升系統(tǒng)穩(wěn)定性和擴展性。
3. 完善監(jiān)控與指標體系:持續(xù)完善端到端全鏈路監(jiān)控體系,整合日志、鏈路追蹤等工具實現(xiàn)早發(fā)現(xiàn)早預警;制定SLI/SLO/SLA核心指標,設計定制化監(jiān)控看板及告警策略。
4. 推進跨團隊協(xié)同攻堅:與產品、研發(fā)、測試等團隊的常態(tài)化協(xié)作,提前介入運維需求評估;提前發(fā)現(xiàn)設備長連接、升級、高并發(fā)等核心并發(fā)場景中,可能引入的風險,并協(xié)同研發(fā)規(guī)避。
5. 保障變更與事件管理:組織平臺變更管理,覆蓋申請、評審、灰度、回滾及復盤全環(huán)節(jié);按事件管理流程分級處置現(xiàn)網事件,確保SLA內閉環(huán)并優(yōu)化流程。