崗位要求
1、計(jì)算機(jī)科學(xué)、信息技術(shù)或相關(guān)領(lǐng)域的本科及以上學(xué)歷,五年以上較大規(guī)模業(yè)務(wù)平臺(tái)維護(hù)經(jīng)驗(yàn);
2、精通Linux操作系統(tǒng)維護(hù)、內(nèi)核性能調(diào)優(yōu)、TCP/IP、HTTP等協(xié)議,有良好的網(wǎng)絡(luò)、數(shù)據(jù)存儲(chǔ)、計(jì)算機(jī)體系結(jié)構(gòu)方面的知識(shí) ,具備很強(qiáng)技術(shù)敏感度和故障排查經(jīng)驗(yàn);
3、熟練使用Python/Shell/Go等至少一種語(yǔ)言,可開(kāi)發(fā)自動(dòng)化運(yùn)維腳本及工具。
4、熟悉網(wǎng)絡(luò)協(xié)議,熟悉常見(jiàn)的網(wǎng)絡(luò)問(wèn)題分析和處理,熟悉主機(jī)路由、防火墻配置及維護(hù);
5、有nginx、web server、分布式系統(tǒng)、Redis、RocketMQ、ELK、Mysql等主流應(yīng)用組件的高可用架構(gòu)設(shè)計(jì)以及維護(hù)經(jīng)驗(yàn); 熟悉prometheus/ELK/全鏈路端到端監(jiān)控體系;熟悉騰訊云/阿里云/天翼云等云廠商產(chǎn)品的運(yùn)維;
6、熟悉容器化(k8s/docker)架構(gòu)及常見(jiàn)云平臺(tái)運(yùn)維技術(shù),有較大規(guī)模生產(chǎn)環(huán)境的k8s容器集群部署和維護(hù)經(jīng)驗(yàn)者優(yōu)先;
7、工作細(xì)致、善于思考,有很強(qiáng)的問(wèn)題分析和解決的能力;強(qiáng)烈的責(zé)任心、良好的溝通和協(xié)調(diào)能力、極強(qiáng)的業(yè)務(wù)推動(dòng)能力、勇于接受挑戰(zhàn);具備較強(qiáng)的文檔編寫能力。
8、愿意接受7*24小時(shí)根據(jù)監(jiān)控系統(tǒng)或人工報(bào)障信息,隨時(shí)處理線上系統(tǒng)故障,保障系統(tǒng)穩(wěn)定運(yùn)行。
崗位職責(zé)
1. 主導(dǎo)故障與風(fēng)險(xiǎn)全流程管控:根據(jù)公司運(yùn)維管理辦法,組織運(yùn)維、研發(fā)等跨團(tuán)隊(duì)排查定位現(xiàn)網(wǎng)故障、性能瓶頸及安全風(fēng)險(xiǎn),推動(dòng)快速恢復(fù);負(fù)責(zé)故障根因分析并輸出報(bào)告,提煉改進(jìn)措施形成閉環(huán)管理。
2. 負(fù)責(zé)隱患治理與架構(gòu)優(yōu)化:定期開(kāi)展系統(tǒng)隱患巡檢與容量評(píng)估,制定并推動(dòng)架構(gòu)瓶頸、資源冗余等問(wèn)題的優(yōu)化方案落地;參與服務(wù)可運(yùn)維性設(shè)計(jì)評(píng)審和運(yùn)維架構(gòu)迭代,推動(dòng)高可用、容器化、彈性伸縮等技術(shù)落地提升系統(tǒng)穩(wěn)定性和擴(kuò)展性。
3. 完善監(jiān)控與指標(biāo)體系:持續(xù)完善端到端全鏈路監(jiān)控體系,整合日志、鏈路追蹤等工具實(shí)現(xiàn)早發(fā)現(xiàn)早預(yù)警;制定SLI/SLO/SLA核心指標(biāo),設(shè)計(jì)定制化監(jiān)控看板及告警策略。
4. 推進(jìn)跨團(tuán)隊(duì)協(xié)同攻堅(jiān):與產(chǎn)品、研發(fā)、測(cè)試等團(tuán)隊(duì)的常態(tài)化協(xié)作,提前介入運(yùn)維需求評(píng)估;提前發(fā)現(xiàn)設(shè)備長(zhǎng)連接、升級(jí)、高并發(fā)等核心并發(fā)場(chǎng)景中,可能引入的風(fēng)險(xiǎn),并協(xié)同研發(fā)規(guī)避。
5. 保障變更與事件管理:組織平臺(tái)變更管理,覆蓋申請(qǐng)、評(píng)審、灰度、回滾及復(fù)盤全環(huán)節(jié);按事件管理流程分級(jí)處置現(xiàn)網(wǎng)事件,確保SLA內(nèi)閉環(huán)并優(yōu)化流程。
備注:合同主體為第三方外包公司。