1、负责网页文本的抓取,存储,滤噪,去重等后期清理工作。
资格/Qualification
1、有爬虫、网页正文提取、分词和特征提取等相关经验 ;
2、熟悉linux、python、java,对数据库有一定了解 ;
3、理解http,熟悉html、DOM、xpath,熟悉webmagic优先 ;
4、有1年以上工作经验优先;优秀应届生优先。
行业 | 数据分析/运作部/电脑部 | 职位 | 程序员 |
招聘部门 | 招聘人数 | 若干 | |
工作地区 | 北京 | 工作性质 | 全职 |
性别要求 | 不限 | 婚姻要求 | 不限 |
学历要求 | 本科 | 工作经验 | 1年以上 |
年龄要求 | 不限年龄 | 待遇水平 | 面议 |
更新日期 | 2017-12-28 | 有效期至 | 长期有效 |