看到一个电商网站帮做淘宝,网站的宣传推广方式,档案馆网站建设,免费的电商平台有哪些代理IP如何选以及常见反爬策略
为什么需要代理#xff1f;
因为有的网站会封IP#xff0c;用户如果没有登录#xff0c;那IP就是身份标识#xff0c;如果网站发现用户行为异常就非常可能封IP
什么是代理IP
就是让一个人帮你转交请求#xff0c;帮你转交的人对面不熟
因为有的网站会封IP用户如果没有登录那IP就是身份标识如果网站发现用户行为异常就非常可能封IP
什么是代理IP
就是让一个人帮你转交请求帮你转交的人对面不熟也就难以发现频繁请求的是你
但是要注意我们只能使用高匿代理透明代理转交请求同时告诉是帮谁转交的什么的是不能用的
如何衡量代理
速度加代理之后3秒钟能相应是优秀5秒钟之内能相应是能用的
安全用来路不明的代理有信息安全风险
价格性价比需要考虑
请求间隔有的接口有请求间隔限制尤其是按时收费的这种也要考虑
稳定性失效时间人为设置有长时间的和短时间的短的1到3分钟长的几天的都有越长的越贵我们用短的就行
比较常用的有芝麻代理小象代理快代理站大爷等等
爬虫选择哪种代理
高匿代理需要代理IP池否则太费代理太烧钱隧道代理 短效版动态版以IP生成cookie登录抓取数据 不能满足IP存活时间短 代理客户端贵但平均每隔代理几秒一换比较快 优点 时间恰当以IP生成cookie登录抓取数据 也能满足
反爬策略 封禁IP类 阈值 打比方一分钟60次第一次封禁2分钟然后策略改为一分钟45次打比方一分钟60次第二天访问同样的内容则策略改为一分钟45次增量爬虫需每天爬取进行数据更新 总结所以有的代理IP可以复活代理IP池很有必要后续会发布 蜜罐陷阱网页有正常用户不可访问的链接爬虫获取并访问此链接将进入无限循环直到程序崩溃 token加密验签 检测环境变量selenium可以检测环境变量requests访问同样也可以检测环境变量
爬虫策略
程序模拟抓 可能涉及的问题 token加密验签封禁IP检测环境变量不常见蜜罐陷阱不常见 selenium抓 可能涉及的问题 封禁IP检测环境变量可以消除指纹 selenium被未知手段封禁山穷水尽ODR识别windows鼠标模拟操作、windows鼠标模拟切换IP、windows鼠标模拟访问数据截图、ODR识别获取数据 弊端 ODR识别不准需要进行模型训练慢识别七八秒钟 适用场景 适用于只用获取一次数据的项目不适合增量爬虫
爬虫注意
不要过于追求爬取速度速度过快对网站有影响网站的反爬措施就会更新对自己没有好处因为增量爬虫项目需要维护不要多进程加协程一般多进程或者协程即可
更多精致内容