職位要求:
1. 精通Python爬蟲框架(Scrapy/Selenium/Requests等),熟悉分布式爬蟲架構(gòu);
2. 掌握反爬破解技術(shù)(IP代理池、請求頭模擬、JS逆向等);
3. 具備文獻平臺爬取經(jīng)驗(如Elsevier、知網(wǎng)、PubMed等為佳);
4. 能通過日志分析快速定位爬蟲中斷原因,制定修復(fù)方案。
工作職責
1.開發(fā)自動化爬蟲程序,從指定學(xué)術(shù)網(wǎng)站/數(shù)據(jù)庫每日抓取篇文獻(PDF);
2.設(shè)計防封禁策略,繞過反爬機制(如驗證碼、IP限制、動態(tài)加載等);
3.按項目規(guī)范清洗、結(jié)構(gòu)化數(shù)據(jù);
4.監(jiān)控爬蟲運行,及時修復(fù)因網(wǎng)站改版、規(guī)則變動導(dǎo)致的故障;
5.定期提交爬取日志與數(shù)據(jù)質(zhì)量報告。
試崗要求(合作前提)
提交可運行的爬蟲Demo,證明能穩(wěn)定實現(xiàn)單日2000篇文獻的爬取能力;
目標網(wǎng)站及字段要求將在簽約NDA后提供。