当前位置: 首页 > news >正文

三明 网站建设html搭建网站

三明 网站建设,html搭建网站,网站系统建设需要什么,微九州合作网站关于用Java进行爬虫的资料网上实在少之又少,但作为以一名对Java刚刚初窥门径建立好兴趣的学生怎么能静得下心用新学的Python去写,毕竟Java是世界上最好的语言嘛 (狗头)关于Java爬虫最受欢迎的一个框架Jsoup常常搭配HttpClient来使用,因为Jsou…

关于用Java进行爬虫的资料网上实在少之又少,但作为以一名对Java刚刚初窥门径建立好兴趣的学生怎么能静得下心用新学的Python去写,毕竟Java是世界上最好的语言嘛 (狗头)

关于Java爬虫最受欢迎的一个框架Jsoup常常搭配HttpClient来使用,因为Jsoup.connect(url)下载网页没有多次重试的功能,所以我们更多的使用HttpClient来进行网页的下载,而Jsoup则更多的用来解析网页。比较专业的事还得专业的人来干!

对于下载网页我们没必要每次都花费大把的时间去写,直接写一个工具类,在Jsoup中直接调用即可

关于HttpClient

关于HttpClient主要有两个版本

  • org.apache.http.client.HttpClient `3.X`

  • org.apache.commons.httpClient.HttpClient `4.X`

相比较4.X的功能更加丰富简洁,但3.x也不差,下面拿3.x举例

HttpClient实例代码

package com.Jsoup;import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;import java.io.IOException;//下载网页工具,返回html对象
public class HttpUtil {static String fileName = null;static String content;/*** 获取网页主体内容,完成HttpClient的下载任务,剩下的交给Jsoup来解析* @param url URL地址* @param charset 设置编码格式* @return 返回网页 html内容 * @throws IOException 抛出IO异常*/public static String getContent(String url,String charset) throws IOException {//1.创建客户端对象并设置参数HttpClient httpClient = new HttpClient();//设置 Http 超时httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(2000);//2.生成GetMethod对象并设置参数GetMethod getMethod = new GetMethod(url);//设置 Get 请求超时getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,2000);getMethod.getParams().setContentCharset(charset);//设置请求重试处理-这是使用HttpClient下载网页而不用Jsoup的原因getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,new DefaultHttpMethodRetryHandler());//设置头信息//getMethod.getParams().setParameter(HttpMethodParams.USER_AGENT,"需要添加的代理信息");//3.执行 Get 请求int statusCode = httpClient.executeMethod(getMethod);//判断访问的状态码if (statusCode != HttpStatus.SC_OK){System.err.println("请求失败: "+getMethod.getStatusLine());fileName = null;}else {//4.处理 HTTP 响应内容//获得响应体内容content = getMethod.getResponseBodyAsString();}//5.释放连接getMethod.releaseConnection();//输出到控制台//System.out.println(content);return content;}}
注意:这里的用户代理(User-Agent)需要按需求设置,后期可能需要设置大量的代理,我们将设置一个Use-Agent库,每次执行爬虫任务将从中随机选取一个,防止被网站封锁

Jsoup代码

public class JsoupDemo01 {public static void main(String[] args) throws IOException {String url = "https://xxxx.com";String html =  HttpUtil.getContent(url,"UTF-8");//Jsoup.parse(String html)可以根据html文档来解析Document doc = Jsoup.parse(html);//具体解析网页不做展示,之后更新}
}

http://www.yayakq.cn/news/333747/

相关文章:

  • 做百度竞价对网站空间有什么要求湛江网站建设模板定位工厂
  • 重庆建设网站公司简介wordpress右侧悬浮插件
  • 产品推广网站看网站用什么软件
  • html语言做的网站和asp的区别图文网站模版
  • 项目网站建设业务分析自己做的网站别人打不开
  • 连云港做网站建设推广 广州网站建设公司
  • wordpress全站备份秦皇岛吧 百度贴吧
  • 视频直播网站如何分析网站关键词
  • 养殖网站源码郑州网络科技有限公司
  • 关于vi设计的网站wordpress占用
  • 汉中北京网站建设新网域名自助管理平台
  • 中瑞网络网站建设流程深圳设计师
  • seo推广的网站和平台有哪些网站群发软文软件
  • 在线快速建站微信服务号开发
  • 手表网站app一个网址建多个网站
  • 加强网站的建设工作的通知成全视频免费观看在线看第7季高清
  • 杭州城市建设网站网络系统软件应用与维护
  • 自己做的网站百度搜不到免费做明信片的网站
  • 建设网站技术公司电话设计官网页面需要多少钱
  • 网站开发的现状分析写建设网站的具体步骤
  • 个人网站如何制作华为手机软文范文300
  • 网站建设的定位是什么wordpress4.9漏洞利用
  • 海外商城网站建设wordpress加侧边栏
  • 网站整站开发教程wordpress 微博同步插件
  • 免费国外医疗静态网站模板下载室内设计网站参考
  • 水利厅网站集约化建设北京建筑培训网
  • 微信可以做网站吗cms网站模板 数据采集
  • 做网站的销售郑州公司网站制作
  • 做去态网站要学什么语言3d模型免费素材网站
  • 做我的奴隶腾讯网站5118新媒体运营