当前位置: 首页 > news >正文

昌平做网站360网站收录提交入口大全

昌平做网站,360网站收录提交入口大全,在线做插画的网站,网站翻页代码一、安装package 在使用爬虫前,需要先安装三个包,requests、BeautifulSoup、selenium。 输入如下代码,若无报错,则说明安装成功。 import requests from bs4 import BeautifulSoup import selenium二、Requests应用 了解了原理…

一、安装package

在使用爬虫前,需要先安装三个包,requests、BeautifulSoup、selenium。

输入如下代码,若无报错,则说明安装成功。

import requests
from bs4 import BeautifulSoup
import selenium

二、Requests应用

blog.csdnimg.cn/3e391689d61e4284a835fe34177509ce.png)
在这里插入图片描述
在这里插入图片描述
了解了原理,接下来实际应用一下requests库叭~

import requestsurl = "https://www.baidu.com"
r = requests.get(url)
print(r.status_code)
print(r.headers)
print(r.text)

如果运行上述代码时出现如下报错:👇
requests.exceptions.ProxyError: HTTPSConnectionPool(host='blog.csdn.net', port=443): Max retries exceeded with url: /m0_51339444/article/details/129049696 (Caused by ProxyError('Cannot connect to proxy.', OSError(0, 'Error')))
可能是因为:(1)网络资源过大,网络无法加载;(2)使用了科学上网,需要关闭。

运行后,其中,r.status_code的返回值是200,表示请求成功,但是如果返回值是400,则表示请求失败。另外,发现程序的r.text输出出现乱码,这是因为在headers内没有明确指出encoding方式,会将其默认成ISO-8859-1编码方式,导致乱码。但是,仔细观察r.text输出,meta中暗示了是“utf-8”编码:👇
在这里插入图片描述
因此,需要指定r.encoding = “utf-8”,然后再执行,输出无乱码。完整代码如下:

import requestsurl = "https://www.baidu.com"
r = requests.get(url)
print(r.status_code)
print("===============================")
print(r.headers)
print("===============================")
print(r.text)
print("===============================")
print(r.encoding)
r.encoding = "utf-8"
print("===============================")
print(r.text)

三、URL管理器

在这里插入图片描述

class UrlManager():"""url管理器"""def __init__(self):  # 初始化self.new_urls = set()  # 放待爬取过的urlself.old_urls = set()  # 放已经爬取的url# 增添新的url(下面两个函数)(实现添加以及判重)def add_new_url(self, url):if url is None or len(url) == 0:  # 判定url是否合法return# 判断url是否在容器中, 在就return,不添加if url in self.new_urls or url in self.old_urls:returnself.new_urls.add(url)  # 否则,就添加新的url在集合中def add_new_urls(self, urls):if urls is None or len(urls) == 0:returnfor url in urls:self.add_new_url(url)# 获取待爬取的url (记得更改url状态)def get_url(self):if self.has_new_url():url = self.new_urls.pop()self.old_urls.add(url)return urlelse:return None# 判断容器中有没有新的待爬取的urldef has_new_url(self):return len(self.new_urls) > 0if __name__ == "__main__":url_manager = UrlManager()url_manager.add_new_url("url1")url_manager.add_new_urls(["url1", "url2"])print(url_manager.new_urls, url_manager.old_urls)print("================================")new_url = url_manager.get_url()print(url_manager.new_urls, url_manager.old_urls)print("================================")new_url = url_manager.get_url()print(url_manager.new_urls, url_manager.old_urls)print("================================")print(url_manager.has_new_url())

在这里插入图片描述

四、HTML简介

为了方便我们更好的理解网站的构成,需要先了解一下HTML的基本原理。
在这里插入图片描述
<head>里面是网站上不可见的信息
<body>里面是网站上可见的信息

http://www.yayakq.cn/news/424349/

相关文章:

  • 做哪些网站可以赚钱的.net做网站用什么框架
  • 上海公司网站网站建设技术流程
  • 网站内页怎样做优化上海外贸公司地址
  • 免费网上商城网站建设网页设计制作与代码整体素材
  • 天津和平做网站多少钱国产成年做视频网站
  • 自己做软件的网站网站seo工作内容
  • 哈尔滨网站关键字优化软件网站是怎么做的
  • 阿里云建设网站的流程网站制作报价doc
  • 有没有什么网站免费做名片优化大师下载安装app
  • 东莞网站建设哪家最好自己怎么做商城网站视频教程
  • 网站页面设计网页说明百度搜索引擎工作原理
  • 建设网站 知乎太原网站优化哪家专业
  • 网站开发时间唐山网站制作系统
  • 压铸东莞网站建设网络营销策划案的形式
  • 如何搭建视频网站网络规划设计师2023估分
  • 在线看mv视频网站入口软件下载陕西商城网站建设
  • 大型网站空间费用1688网站特点
  • 信阳建设网站哪家好做照片书网站
  • 用vscode做网站网站建设用到的工具
  • app定制网站开发安阳县交易中心网站建设招标
  • 做企业网站设中信建设有限责任公司校招
  • asp网站变慢一台云服务器可以做多少个网站
  • 单机做游戏 迅雷下载网站上门做指甲哪个网站
  • 大连六兄弟网站建设东莞市主营网站建设平台
  • 网站怎么做才能被百度抓取到帮别人做违法网站会怎么样
  • 全国卫生机构建设管理系统网站ukidc做电影网站
  • 视频网站建设成本专业做数据的网站有哪些
  • dw 个人网站怎么做wordpress发布图片错位
  • 东莞网站公司推广技巧wordpress广告公司模板
  • 做网站准备材料遂宁商城网站建设方案