当前位置: 首页 > news >正文

服装技术支持东莞网站建设上海企业建站推荐

服装技术支持东莞网站建设,上海企业建站推荐,杭州知名app技术开发公司,傻瓜网站开发工具爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。 下面开始逐步分析爬虫的实现。 待下载集合与已下载集合 为了保存需要下载的URL,同时防止重复下载,我们需要分别用了两个集合来存放将要下载的URL和…

爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。

下面开始逐步分析爬虫的实现。

  1. 待下载集合与已下载集合

为了保存需要下载的URL,同时防止重复下载,我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。

因为在保存URL的同时需要保存与URL相关的一些其他信息,如深度,所以这里我采用了Dictionary来存放这些URL。

具体类型是Dictionary<string, int> 其中string是Url字符串,int是该Url相对于基URL的深度。

每次开始时都检查未下载的集合,如果已经为空,说明已经下载完毕;如果还有URL,那么就取出第一个URL加入到已下载的集合中,并且下载这个URL的资源。

  1. HTTP请求和响应

C#已经有封装好的HTTP请求和响应的类HttpWebRequest和HttpWebResponse,所以实现起来方便不少。

为了提高下载的效率,我们可以用多个请求并发的方式同时下载多个URL的资源,一种简单的做法是采用异步请求的方法。

控制并发的数量可以用如下方法实现

private void DispatchWork()
{if (_stop) //判断是否中止下载{return;}for (int i = 0; i < _reqCount; i++){if (!_reqsBusy[i]) //判断此编号的工作实例是否空闲{RequestResource(i); //让此工作实例请求资源}}
}

由于没有显式开新线程,所以用一个工作实例来表示一个逻辑工作线程

private bool[] _reqsBusy = null; //每个元素代表一个工作实例是否正在工作
private int _reqCount = 4; //工作实例的数量

每次一个工作实例完成工作,相应的_reqsBusy就设为false,并调用DispatchWork,那么DispatchWork就能给空闲的实例分配新任务了。

接下来是发送请求 每次一个工作实例完成工作,相应的_reqsBusy就设为false,并调用DispatchWork,那么DispatchWork就能给空闲的实例分配新任务了。

接下来是发送请求

private void RequestResource(int index){int depth;string url = "";try{lock (_locker){if (_urlsUnload.Count <= 0) //判断是否还有未下载的URL{_workingSignals.FinishWorking(index); //设置工作实例的状态为Finishedreturn;}_reqsBusy[index] = true;_workingSignals.StartWorking(index); //设置工作状态为Workingdepth = _urlsUnload.First().Value; //取出第一个未下载的URLurl = _urlsUnload.First().Key;_urlsLoaded.Add(url, depth); //把该URL加入到已下载里_urlsUnload.Remove(url); //把该URL从未下载中移除}HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);req.Method = _method; //请求方法req.Accept = _accept; //接受的内容req.UserAgent = _userAgent; //用户代理RequestState rs = new RequestState(req, url, depth, index); //回调方法的参数var result = req.BeginGetResponse(new AsyncCallback(ReceivedResource), rs); //异步请求ThreadPool.RegisterWaitForSingleObject(result.AsyncWaitHandle, //注册超时处理方法TimeoutCallback, rs, _maxTime, true);}catch (WebException we){MessageBox.Show("RequestResource " + we.Message + url + we.Status);}}
private void RequestResource(int index){int depth;string url = "";try{lock (_locker){if (_urlsUnload.Count <= 0) //判断是否还有未下载的URL{_workingSignals.FinishWorking(index); //设置工作实例的状态为Finishedreturn;}_reqsBusy[index] = true;_workingSignals.StartWorking(index); //设置工作状态为Workingdepth = _urlsUnload.First().Value; //取出第一个未下载的URLurl = _urlsUnload.First().Key;_urlsLoaded.Add(url, depth); //把该URL加入到已下载里_urlsUnload.Remove(url); //把该URL从未下载中移除}HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url);req.Method = _method; //请求方法req.Accept = _accept; //接受的内容req.UserAgent = _userAgent; //用户代理RequestState rs = new RequestState(req, url, depth, index); //回调方法的参数var result = req.BeginGetResponse(new AsyncCallback(ReceivedResource), rs); //异步请求ThreadPool.RegisterWaitForSingleObject(result.AsyncWaitHandle, //注册超时处理方法TimeoutCallback, rs, _maxTime, true);}catch (WebException we){MessageBox.Show("RequestResource " + we.Message + url + we.Status);}}

第7行为了保证多个任务并发时的同步,加上了互斥锁。_locker是一个Object类型的成员变量。

第9行判断未下载集合是否为空,如果为空就把当前工作实例状态设为Finished;如果非空则设为Working并取出一个URL开始下载。当所有工作实例都为Finished的时候,说明下载已经完成。由于每次下载完一个URL后都调用DispatchWork,所以可能激活其他的Finished工作实例重新开始工作。

第26行的请求的额外信息在异步请求的回调方法作为参数传入,之后还会提到。

第27行开始异步请求,这里需要传入一个回调方法作为响应请求时的处理,同时传入回调方法的参数。

第28行给该异步请求注册一个超时处理方法TimeoutCallback,最大等待时间是_maxTime,且只处理一次超时,并传入请求的额外信息作为回调方法的参数。

RequestState的定义是

class RequestState
{private const int BUFFER_SIZE = 131072; //接收数据包的空间大小private byte[] _data = new byte[BUFFER_SIZE]; //接收数据包的bufferprivate StringBuilder _sb = new StringBuilder(); //存放所有接收到的字符public HttpWebRequest Req { get; private set; } //请求public string Url { get; private set; } //请求的URLpublic int Depth { get; private set; } //此次请求的相对深度public int Index { get; private set; } //工作实例的编号public Stream ResStream { get; set; } //接收数据流public StringBuilder Html{get{return _sb;}}public byte[] Data{get{return _data;}}public int BufferSize{get{return BUFFER_SIZE;}}public RequestState(HttpWebRequest req, string url, int depth, int index){Req = req;Url = url;Depth = depth;Index = index;}
}
http://www.yayakq.cn/news/983257/

相关文章:

  • 做韩国护的网站建设淘宝客网站多少钱
  • 榆林市 网站建设个人网站作品
  • 免x网站wordpress二开
  • 建设部网站注销一级建造师适合做手机主页的网站
  • 网站的站点的管理系统静态网站开发试验报告
  • 网站软件应用大全去水印小程序源码
  • ipa文件自己网站怎么做下载icp主体备案号和网站备案号
  • 免费搭建平台网站视频拍摄剪辑培训
  • 网站建设方案书格式wordpress获取标签页
  • 常州做网站代理商提供东莞网站制作公司
  • cpa广告联盟网站建设傻瓜式网站简单界面
  • 临安规划建设局网站网站怎么做导航
  • 网站建设基础ppt商城网站策划书
  • 备案公司网站建设方案书沈阳做机床的公司网站
  • 环境网站模板网站建成之后应该怎么做
  • owasp+网站开发湖北潜江信息网
  • 长沙网站运营外包公司四模网站
  • 设计某网站的登录和注册程序网站页面格式
  • 淘宝客网站还可以做吗网站 运营工作如何做
  • 怎样做网站外链建筑智库免费网站
  • 普陀大型网站建设php网站开发预算文档
  • 深圳高端网站建设电话英文seo外链
  • 外贸网站如何做推广电话广州软件定制公司
  • 番禺建设网站多少钱网站怎样免费推广
  • 网站如果不备案吗网站开发电商项目的成本管理怎么写
  • 网站主页设计布局温州市建设工程管理网站
  • 深圳华强北做网站佛山怎么做网站
  • dw旅游网站模板下载技术支持 淄博网站建设
  • 云顶科技做网站的柳州电商网站建设
  • 全网营销推广网站建设wordpress getposts