最近工作中遇到一个项目,需要处理一些术语的标准化,需要对一个现有网站进行爬虫得到我们想要的结果。对网站简单分析下,就开始爬了,第一次处理了一万多数据,顺利完成,但后来又有需求,处理3万多数据,接到任务后接着爬,但爬到一半发现...

描述:

    这里主要是记录一下使用Selenium + Chromedrive模拟登录知乎,并且保存cookie。这里遇到了很多问题,先是在本地运行不起来,然后本地能运行后,在服务器上运行出现...

写在前面,全部代码已开源,放到github上。点击查看欢迎star.

想几分钟了解目前社会最新动态和最热门事件,那么最好的选择就是搭建一个热点聚合网站。下面就记录下我使用python 搭建热点聚合的网站。

搭建一个这样的网站,...

原因:

最近看博客访问记录,记录ip地址记录很多都是空,觉得不正常,于是看下调用的淘宝ip查询接口,发现直返回502。没办法,只能在找一些免费的ip查询接口。(因为只记录大概地址,来识别是否为真人访问)免费的的精确度就足够了。...