崗位職責
1、系統(tǒng)穩(wěn)定性保障:負責保障公司系統(tǒng)、應用和服務的高可用性、可靠性和性能。設計、實施和維護監(jiān)控系統(tǒng),及時發(fā)現并解決潛在問題。
2、故障排除與問題解決:快速響應和解決生產環(huán)境中的故障,確保系統(tǒng)正常運行。
3、自動化運維:開發(fā)和維護自動化工具,提高系統(tǒng)部署、配置和監(jiān)控的效率。
4、容量規(guī)劃與性能優(yōu)化:分析系統(tǒng)資源使用情況,進行容量規(guī)劃,確保系統(tǒng)能夠滿足業(yè)務增長需求。
5、安全性保障:與安全團隊合作,確保系統(tǒng)和服務的安全性,及時修復潛在的安全漏洞。
3、能夠深入了解監(jiān)控發(fā)現、故障應急、風險治理等一個或多個技術領域,并對相關的技術領域,并將相關能力平臺化擴展與多場景復制,解決實際穩(wěn)定性場景中面臨的問題,提升用戶體驗。
崗位要求
1、碩士及以上學歷,計算機科學、信息技術或相關專業(yè)背景。
2、5年以上系統(tǒng)運維、性能優(yōu)化、故障排查等相關經驗。
3、熟練使用自動化運維工具,具備Shell、Python等腳本編程經驗。
4、深入理解計算、存儲、網絡、安全等技術。
5、深入了解云計算、容器化技術(Docker、Kubernetes)。
6、熟悉 Prometheus、Grafana 等監(jiān)控工具,具備可觀測性系統(tǒng)搭建和維護經驗。
7、熟悉 ELK/EFK 等日志系統(tǒng),具備日志收集、分析和查詢的實戰(zhàn)經驗。
8、熟悉常用的運維工具和技術,例如 Ansible、Jenkins、Git 等。
9、具備強大的故障排除和問題解決能力,能夠在高壓環(huán)境下迅速應對。
10、有大型分布式系統(tǒng)的設計和維護經驗者優(yōu)先。
11、對新技術有強烈的學習興趣,保持對行業(yè)最新趨勢的關注。