岗位职责:
1、负责对淘宝,京东,小红书,知乎,宝宝树类的数据采集;
2、完成网络爬虫设计、网页抓取、网页去重、网页信息抽取等功能
3、完成爬取信息的清洗和入库 。
任职资格:
1、至少有两年网络爬虫经验;
2、熟悉TCP,HTTP协议原理;熟悉AJAX工作原理;熟练js、html,熟练使用python;
3、能够解决和攻克身份认证、封账号、封IP等数据采集难点问题;
4 熟练使用selenium 等工具,了解appium等app爬取工具;
5、精通网页抓取原理及技术,精通正则表达式,精通SQL,可以从结构化的和非结构化的数据中获取信息,有 Scrapy / Pyspider / Nutch / Heritrix 框架之一的使用经验;
6、熟悉Linux常用操作及命令,良好的编码习惯,有独立思考的能力,善于解决问题;
7、有app类应用数据爬取优先。
工作地点:深圳