当前位置: 首页 > news >正文

分销商城搭建wordpress优化版4.7.4

分销商城搭建,wordpress优化版4.7.4,盘锦网站设计,网站开发学什么比较有优势如果对htmlunit还不了解的话可以参考Java:爬虫htmlunit-CSDN博客 了解了htmlunit之后,我们再来学习如何在页面中抓取我们想要的数据,我们在学习初期可以找一些结构比较清晰的网站来做测试爬取,首先我们随意找个网站如下&#xff…

如果对htmlunit还不了解的话可以参考Java:爬虫htmlunit-CSDN博客

了解了htmlunit之后,我们再来学习如何在页面中抓取我们想要的数据,我们在学习初期可以找一些结构比较清晰的网站来做测试爬取,首先我们随意找个网站如下:

当我们打开网站F12,进入开发者模式,我们在学习之前我们需要知道我们要爬取什么数据,了解数据和页面的结构。就拿这个网站来说我们如果要爬取它的数据,首先需要获取他们的类别,在获取类别下的数据。那我们在点击类别的时候,需要分析下地址有没有变化,如果变化了,我们需要拿到指定类别的地址,然后和域名拼接成完整地址抓取其类目下的数据。

为什么要拼接呢?因为在网站类目使用的跳转,会自动加上站点地址;我们在爬取的时候是没有该网站域名的。

这个列子非常简单,我们直接要获取它的类别跳转的地址,再根据爬取的地址爬取其详情数据;

分析下来我们只要抓取该页面的a标签即可。这个在 htmlunit 中提供了 HtmlAnchor 直接可以获取所有的a标签,代码如下:

/*** <b>Function: </b> todo** @program: 根据页面信息获取子页面信息* @Package: com.kingbal.king.dmp* @author: dingcho* @date: 2024/06/13* @version: 1.0* @Copyright: 2024 www.kingbal.com Inc. All rights reserved.*/
@Slf4j
public class BaseTest {public static void main(String[] args) throws Exception {HtmlPage page = SpiderUtils.crawlPageWithoutAnalyseJs("https://www.yiyiwiy.com/");//System.err.println(page);List<HtmlAnchor> htmlAnchorList = page.getAnchors();log.info("htmlAnchorList.size() >>" + htmlAnchorList.size());log.info("********************");htmlAnchorList.forEach(f -> {if(f.getHrefAttribute().contains("vodtypehtml")){log.info(f.getHrefAttribute());}});log.info("********************");}}

我们抓取的是所有页面的a标签,所以我们需要过滤掉我们不需要的地址:

if(f.getHrefAttribute().contains("vodtypehtml")){log.info(f.getHrefAttribute());
}

然后执行代码,就可以获取到对应数据

http://www.yayakq.cn/news/799512/

相关文章:

  • 遂宁网站制作联合年检在什么网站做
  • 用mvc做网站的框架十大设计创意产品网站
  • 瑞安外贸网站制作宣传片拍摄报价明细
  • 网站建设报价兴田德润用wordpress做官网
  • 好的网站制作网站织梦网站网址变了如何搬家
  • 个人网站建设平台网站在开发过程中如何做SEO
  • 一个网站设计的费用佛山专门做网站设计怎样做
  • 沈阳网站制作费用淘宝客优惠卷网站模板
  • 分类信息网站怎么做做网站服务器硬盘多大
  • 四川省城乡住房和城乡建设厅网站网站开发的选题审批表
  • 北沙滩网站建设厦门网站建设114
  • vs2008网站消息弹窗怎么做潜水艇官方网站代理
  • 南阳seo网站排名优化wordpress get user
  • 做团购网站视频西安做网站的网络公司
  • 如何自己设置网站网站建设xs029
  • 欧美建设网站新手学做网站vs
  • 东莞网站设计案例优质网站建设在哪里
  • 朔州网站建设费用国家信息企业公示网官网登录入口
  • 台州网站建设制作电商图片
  • 全广告网站关于网站开发的文档
  • 无锡做网站公司有哪些电话网站建设潮州
  • 桂林旅游网站制作公司wordpress 首页登录
  • 建设网站过水建筑网站建设
  • 有后天管理的网站怎么建设网站开发的背景和意义
  • 服务一流的做网站打开网站访问慢
  • phpcms做汽车网站国外工业产品设计网站
  • 学校门户网站建设必要性电子创意设计网站
  • 推荐几个看黄的网站东莞网站排名优化公司
  • 惠阳有做公司网站的吗鞍山网站制作
  • 南海网站建设多少钱视频网站如何做营销策划