負(fù)責(zé)搭建和維護(hù)全鏈路監(jiān)控體系,實(shí)時(shí)監(jiān)控服務(wù)器、網(wǎng)絡(luò)、應(yīng)用及中間件的運(yùn)行狀態(tài),保障系統(tǒng)7 * 24H高可用性。
設(shè)計(jì)和優(yōu)化告警策略,通過工具(如Prometheus、Zabbix、Grafana等)實(shí)現(xiàn)異??焖侔l(fā)現(xiàn)與精準(zhǔn)定位,并推動故障根因分析及修復(fù)。
結(jié)合日志分析工具(如ELK)實(shí)現(xiàn)日志的實(shí)時(shí)采集、存儲與可視化,輔助故障排查及性能優(yōu)化。
2、CI/CD流程設(shè)計(jì)與維護(hù)
構(gòu)建和維護(hù)持續(xù)集成/持續(xù)交付(CI/CD)流水線,集成代碼編譯、自動化測試、鏡像構(gòu)建及部署等環(huán)節(jié),確保高效、安全的發(fā)布流程。
熟悉Jenkins、GitLab CI等工具配置,支持多環(huán)境(開發(fā)、測試、生產(chǎn))的自動化部署與回滾策略。
優(yōu)化容器化部署流程,熟練使用Docker、Kubernetes等工具管理微服務(wù)架構(gòu)的資源編排與擴(kuò)縮容。
聯(lián)調(diào)安全,代碼掃描等相關(guān)平臺,實(shí)現(xiàn)一體化devops。
3、開發(fā)運(yùn)維腳本(Shell/Python/Go等)
實(shí)現(xiàn)配置管理、批量操作及監(jiān)控?cái)?shù)據(jù)的自動化處理,提升運(yùn)維效率。
協(xié)助編寫監(jiān)控,發(fā)布平臺的相關(guān)運(yùn)維腳本。
4、系統(tǒng)安全與架構(gòu)規(guī)劃
梳理現(xiàn)有架構(gòu),并進(jìn)行架構(gòu)層面的優(yōu)化
實(shí)施安全策略,定期進(jìn)行漏洞掃描、修復(fù)及審計(jì),保障系統(tǒng)及數(shù)據(jù)安全。
通過性能壓測與容量評估,優(yōu)化資源利用率,制定彈性擴(kuò)容方案以應(yīng)對業(yè)務(wù)增長。
編寫運(yùn)維手冊、故障處理預(yù)案及技術(shù)文檔,推動團(tuán)隊(duì)知識沉淀。
協(xié)同開發(fā)、測試團(tuán)隊(duì)優(yōu)化系統(tǒng)架構(gòu)的可運(yùn)維性,參與技術(shù)方案評審并提供可靠性建議。
1、計(jì)算機(jī)、網(wǎng)絡(luò)工程或相關(guān)專業(yè),3年以上運(yùn)維/DevOps經(jīng)驗(yàn)。
2、監(jiān)控工具:精通Prometheus、Zabbix、Nagios等監(jiān)控系統(tǒng),熟悉告警規(guī)則配置及數(shù)據(jù)可視化,對APM探針監(jiān)控有管理經(jīng)驗(yàn)。
3、CI/CD工具鏈:熟練使用Jenkins、GitLab CI、Argo CD等工具,具備流水線設(shè)計(jì)及優(yōu)化經(jīng)驗(yàn)。
4、容器與云平臺:熟悉Docker、Kubernetes及主流云服務(wù)(阿里云/AWS等),具備容器化運(yùn)維能力。
5、腳本開發(fā):掌握Shell/Python/Go至少一種語言,能獨(dú)立開發(fā)運(yùn)維工具及自動化腳本。
6、系統(tǒng)與網(wǎng)絡(luò):深入理解Linux系統(tǒng)、TCP/IP協(xié)議,熟悉Nginx、Redis、MySQL等組件的調(diào)優(yōu)。
7、具備優(yōu)秀的故障排查能力及抗壓能力,能快速響應(yīng)并處理線上緊急問題。
良好的溝通協(xié)作意識,能推動跨團(tuán)隊(duì)項(xiàng)目落地,關(guān)注技術(shù)趨勢并持續(xù)學(xué)習(xí)。
持有阿里云/ AWS等云平臺認(rèn)證(如ACE、DevOps工程師)。
熟悉Service Mesh(如Istio)、全鏈路追蹤工具(如SkyWalking、Jaeger)。