• python selenium 查找隐藏元素 自动播放视频 动态加载

    在使用python做爬虫的过程中,有些页面的的部分数据是通过js异步加载的,js调用接口的请求中有时还带有些加密的参数很难破解无法使用requests这样的包直接爬取数据,因此需要借助seleniu来完成js的自动加载。
    通过selenium 模拟浏览器的真是操作来获取页面中的所有请求,并且可以查找到一下页面上一些隐藏的元素,这些元素在html源码中无法看到,并且和能通过xpath和正则来捕获,因此需要使用selenium来查找隐藏元素,例如视频网站的播放按钮
    [Read More…]

  • squid+haproxy实现爬虫代理服务器

    通过squid搭建正向代理并结合haproxy实现负载均衡,代理服务器和代理服务器ip更换不需要更改爬虫脚本配置,直接由haproxy实现负载均衡和故障转移。

    [Read More…]

第 1 页,共 1 页1