1.數(shù)據(jù)采集與處理:設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)采集方案,能運(yùn)用爬蟲(chóng)技術(shù)從公開(kāi)網(wǎng)絡(luò)數(shù)據(jù)源(如行業(yè)網(wǎng)站、社交媒體平臺(tái)等)合規(guī)采集數(shù)據(jù),同時(shí)從多種數(shù)據(jù)源(如業(yè)務(wù)系統(tǒng)、日志文件、API 接口、物聯(lián)網(wǎng)設(shè)備等)高效采集數(shù)據(jù);對(duì)采集到的原始數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換、集成等處理,去除冗余、錯(cuò)誤數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為符合業(yè)務(wù)需求的格式,為數(shù)據(jù)分析和挖掘提供高質(zhì)量的數(shù)據(jù)支持。
負(fù)責(zé)數(shù)據(jù)采集與治理相關(guān)工作,確保數(shù)據(jù)質(zhì)量和準(zhǔn)確性;
2.數(shù)據(jù)管道開(kāi)發(fā)與優(yōu)化:開(kāi)發(fā)、部署和維護(hù)數(shù)據(jù) ETL(抽取、轉(zhuǎn)換、加載)管道,實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)化流轉(zhuǎn)與處理;結(jié)合 RPA 技術(shù)優(yōu)化數(shù)據(jù)管道中涉及的人工操作環(huán)節(jié),提高管道運(yùn)行的自動(dòng)化程度;持續(xù)監(jiān)控?cái)?shù)據(jù)管道的運(yùn)行狀態(tài),及時(shí)發(fā)現(xiàn)并解決數(shù)據(jù)傳輸過(guò)程中的問(wèn)題,優(yōu)化數(shù)據(jù)處理效率,提升數(shù)據(jù)管道的穩(wěn)定性和可靠性。
3.數(shù)據(jù)質(zhì)量管控:建立健全的數(shù)據(jù)質(zhì)量管控體系,制定數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)和評(píng)估指標(biāo);通過(guò)數(shù)據(jù)校驗(yàn)、監(jiān)控、預(yù)警等手段,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行全方位管理,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題并推動(dòng)解決,確保數(shù)據(jù)的準(zhǔn)確性、及時(shí)性和有效性。
任職要求:
1.本科及以上學(xué)歷,3-5年工作經(jīng)驗(yàn),計(jì)算機(jī)、軟件工程、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等相關(guān)專業(yè)優(yōu)先;
2.精通 Python 語(yǔ)言,具備扎實(shí)的編程基礎(chǔ)和良好的代碼規(guī)范;
3.熟練主流的關(guān)系型數(shù)據(jù)庫(kù)(如 MySQL、Oracle)、時(shí)序數(shù)據(jù)庫(kù)(如開(kāi)務(wù)、Doris),能夠熟練運(yùn)用數(shù)據(jù)處理工具,具備良好的數(shù)據(jù)分析能力;
4.熟悉 ETL 工具(如 DataStage、Informatica、Kettle 等)或 ETL 腳本開(kāi)發(fā),了解數(shù)據(jù)抽取、轉(zhuǎn)換、加載的原理和實(shí)踐;
5.熟悉爬蟲(chóng)技術(shù),熟練使用selenium 、DrissionPage 等自動(dòng)化抓取技術(shù),具備從公開(kāi)網(wǎng)絡(luò)數(shù)據(jù)源合規(guī)采集數(shù)據(jù)的經(jīng)驗(yàn);
熟悉 RPA 技術(shù),如 UiPath、Automation Anywhere、Blue Prism 等工具,有利用 RPA 實(shí)現(xiàn)數(shù)據(jù)相關(guān)流程自動(dòng)化的項(xiàng)目經(jīng)驗(yàn);