自己搭建ip代理池

  • 文章
  • 作者:Hubery
  • 发布时间:2019-05-27
  • 阅读数:226
  • 分类:爬虫
  • 标签: Django python 爬虫

最近工作中遇到一个项目,需要处理一些术语的标准化,需要对一个现有网站进行爬虫得到我们想要的结果。对网站简单分析下,就开始爬了,第一次处理了一万多数据,顺利完成,但后来又有需求,处理3万多数据,接到任务后接着爬,但爬到一半发现请求的返回的状态码全是403,知道被封ip了。为了完成任务,咱也只能想办法了,就准备使用ip代理池,但现有的一些免费ip质量不是太好,就想办法收集了一些提供免费ip的网站,定时从这些网站收集,这样在数量上就有一些优势了,但如果需要大量的代理ip,还是需要购买的。

现在这个项目放到了我的github上,github地址。或者复制链接https://github.com/pangxiaobin/proxy_ip_pool

这个项目主要使用了Django,requests 实现。具体使用方法可参考github中的readme。

可以访问http://47.102.205.85:9000/ 查看示例,里面只有测试数据,切勿大量访问,渣渣服务器。



评论列表
优秀的你不评论一下咩!!
新的评论