崗位職責(zé):
1、負(fù)責(zé)公司數(shù)據(jù)源抓取需求,滿足公司對多源數(shù)據(jù)采集要求;
2、實現(xiàn)大規(guī)模數(shù)據(jù)的抓取、抽取,去重、分類,垃圾過濾,質(zhì)量識別、解析入庫等工作;
3、能獨立解決實際數(shù)據(jù)挖掘過程碰到的各類問題 。
任職要求:
1、本科以上學(xué)歷,2年以上爬蟲開發(fā)相關(guān)經(jīng)驗,熟練使用Python進行數(shù)據(jù)爬?。?
2、 熟練使用正則表達(dá)式、css path、xpath等,能夠從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
3、 熟悉各種抓取技術(shù),包括代理、PhantomJSselenium、驗證碼處理;
4、精通一種開源爬框架,如scrapy、webmagic、nutch、heritrix等;
5、熟悉各種反爬蟲技術(shù)及其應(yīng)對措施,有分布式爬蟲架構(gòu)經(jīng)驗優(yōu)先;
6、具有良好的團隊協(xié)作精神,思維清晰敏捷,邏輯分析能力強;
7、會開車,能接受短期出差。
職位福利:定期體檢、五險一金、員工旅游、年終分紅