用dw做网站的流程域名访问wordpress
1.1 爬虫的一些知识(大模型提供语料)
 网页资源:
 资源组织方式:列表分页,搜索引擎,推荐
 发送请求的文档类型:html ,js
 响应请求的文档类型:html,js,json
 请求方式:同步和异步
 页面形式:单页面,非单页面;
 抓取流程:requests直接请求
         # 抓取入口(穷举或者探索方式)
         # 遍历
         # 解析&清洗
         # 入库
         # 遍历结束
 需要关注的点:
 内容反爬:抓取内容投毒、混淆等反抓取;
 请求反爬:返回403等,或者跳转或者返回到一个人工校验页面;
 资源覆盖率:穷举所有要抓取的资源;
 增量抓取:如何保证更新能跟上;
 抓取速率要友好;
 关于反爬策略:
 加上header;
 不使用requests;
 加上IP代理池;
 关于模拟抓取:
 重量级:selenium
 轻量级:其他;
 解析:bs4和xpath
 一个是擅长筛选器,一个擅长路径定位;
 清洗:
 内容部分乱码、(硬)断行。
 后续继续补充。。。
