【崗位職責(zé)】
1、參與數(shù)據(jù)采集平臺架構(gòu)設(shè)計(jì)和開發(fā)工作。
2、負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式網(wǎng)絡(luò)爬蟲系統(tǒng)、技術(shù)選型。
3、持續(xù)對系統(tǒng)進(jìn)行架構(gòu)改造和優(yōu)化,提升系統(tǒng)的穩(wěn)定性與可擴(kuò)展性,保障系統(tǒng)穩(wěn)定,高效,安全。
4、負(fù)責(zé)多平臺信息(視頻、音頻、圖片、文章等)爬取,包括APP端采集,agent相關(guān)數(shù)據(jù)采集等。
【崗位要求】
1、本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專業(yè)。3年及以上網(wǎng)絡(luò)爬蟲相關(guān)、采集平臺、rpa相關(guān)開發(fā)經(jīng)驗(yàn)。
2、熟練掌握Python編程語言及常用采集框架,深入了解框架提供的特性及其實(shí)現(xiàn)原理細(xì)節(jié)。
3、熟練掌握PC/Android自動化采集技術(shù),如playwright,selenium、dirssionpage等。
4、研究爬蟲策略和防屏蔽規(guī)則,解決封賬號、封IP、驗(yàn)證碼、混淆加密,頁面跳轉(zhuǎn)等難點(diǎn)攻克,提升網(wǎng)頁抓取的效率和質(zhì)量。
5、熟悉風(fēng)控逆向相關(guān)技術(shù),國內(nèi)外驗(yàn)證碼破解等;熟悉如何TLS 指紋、逆向、混淆、JS補(bǔ)環(huán)境等技術(shù),以及各類加密算法,譬如(AES、RSA、Base64,Md5、SHA 系列等)。
6、具有良好的溝通能力、學(xué)習(xí)能力、分析解決問題能力,有較強(qiáng)的責(zé)任心、自驅(qū)力和成長型思維;
7、有長期規(guī)?;杉到y(tǒng)建設(shè)經(jīng)驗(yàn)優(yōu)先;有國外人機(jī)驗(yàn)證碼破解經(jīng)驗(yàn)優(yōu)先;有computer use/phone use等agent相關(guān)數(shù)據(jù)采集經(jīng)驗(yàn)優(yōu)先。