工作職責(zé):
1、數(shù)據(jù)抓取與處理:
設(shè)計和開發(fā)高效的網(wǎng)絡(luò)爬蟲和數(shù)據(jù)抓取程序,從多種公開數(shù)據(jù)源獲取所需信息。
解決抓取過程中遇到的反爬蟲、動態(tài)渲染、驗(yàn)證碼等復(fù)雜技術(shù)問題。
確保數(shù)據(jù)抓取過程的合法性、穩(wěn)定性和效率。
2、數(shù)據(jù)清洗與入庫:
對抓取和業(yè)務(wù)產(chǎn)生的原始數(shù)據(jù)進(jìn)行清洗、去重、格式化、轉(zhuǎn)換等ETL處理。
設(shè)計和維護(hù)合理的數(shù)據(jù)存儲結(jié)構(gòu),將處理后的數(shù)據(jù)高效、準(zhǔn)確地存入數(shù)據(jù)庫或數(shù)據(jù)倉庫。
保證數(shù)據(jù)質(zhì)量和數(shù)據(jù) pipeline 的可靠性。
任職要求:
1、精通 Python: 3年以上扎實(shí)的Python開發(fā)經(jīng)驗(yàn),深刻理解Pythonic編程思想,熟練掌握其核心庫和常用框架(如 FastAPI、Django、Flask、Scrapy等)。
2、數(shù)據(jù)抓取專長: 精通Scrapy、Requests、BeautifulSoup、Selenium/Playwright等至少一種主流爬蟲框架或工具,能應(yīng)對各種復(fù)雜的抓取場景。
3、數(shù)據(jù)處理與存儲: 熟練掌握Pandas、NumPy等數(shù)據(jù)處理庫,并具備良好的SQL能力,熟悉至少一種主流數(shù)據(jù)庫(如 MySQL、PostgreSQL、MongoDB等)。
4、綜合能力: 具備優(yōu)秀的問題解決能力、團(tuán)隊合作精神和良好的溝通能力。