当前位置: 首页 > news >正文

石家庄做网络推广的网站网站建设做微营销

石家庄做网络推广的网站,网站建设做微营销,qq网页版网址,wordpress纯静态化原文网址:SEO系列--robots.txt的用法-CSDN博客 简介 本文介绍网站的robots.txt文件的用法。 Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。 搜索引擎使用spider…

原文网址:SEO系列--robots.txt的用法-CSDN博客

简介

本文介绍网站的robots.txt文件的用法。

Robots是站点与搜索引擎爬虫沟通的重要渠道,站点通过robots文件声明本网站中不想被搜索引擎抓取的部分或者只让搜索引擎抓取指定内容。

搜索引擎使用spider(爬虫)程序自动获取网页信息。spider访问网站时,首先检查该网站根域下是否有robots.txt的纯文本文件,比如:https://example.com/robots.txt。

如果robots.txt不存在或者为空文件,表示允许所有的搜索引擎robot访问和收录。

robots.txt文件格式

robots.txt文件放置于根目录下,比如:https://example.com/robots.txt,包含一条或更多的记录,这些记录通过回车分割。

一条记录的格式如下所示:

<field>:<optional space><value><optionalspace>
  1. 可以使用#进行注解
  2. 通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行

通配符

可以使用通配符*和$来模糊匹配url。

*:匹配0或多个任意字符
$:匹配行结束符。

User-agent

该项的值用于描述搜索引擎robot的名字。至少要有一条User-agent记录。如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制。

如果设为*,则允许所有robot访问。即:User-agent:*。(这样的记录只能有一条)。

如果加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow

表示不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀。

例如:

  • Disallow:/help:禁止robot访问/help.html、/helpabc.html、/help/index.html
  • Disallow:/help/:允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

Allow

表示允许访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀。

例如:

  • Allow: /hibaidu:允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。

Sitemap

表示站点地图的地址:

Sitemap: https://abc.com/mysitemap.txt

对于百度来说,支持以下两种Sitemap格式:

  1. txt文本格式
  2. xml格式

示例

最常用的配置 

User-agent: *
Allow: /
Disallow: /*?*Sitemap: https://abc.com/mysitemap.xml

例1.允许所有的robot访问

User-agent: *
Allow: /

(或者也可以建一个空文件robots.txt)。

一般情况下,防止参数里有垃圾信息,导致网站收录量变少或被ban,要禁止带参数:

User-agent: *
Allow: /
Disallow: /*?*

例2.禁止所有搜索引擎访问网站的任何部分

user-agent: *
Disallow: /

例3.仅禁止Baiduspider访问您的网站

user-agent: Baiduspider
Disallow: /

例4.仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /User-agent:*
Disallow: /

例5.仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /User-agent: Googlebot
Allow: /User-agent: *Disallow: /

例6.禁止spider访问特定目录

User-agent: *
Disallow: /cgi-bin/
Disallow: /~joe/

在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,不允许robot访问这三个目录。需要注意的是:对每一个目录必须分开声明,而不能写成这样:Disallow: /cgi-bin/ /temp/

例7.允许访问特定目录中的部分url

User-agent: *
Allow:/tmp/hi
Allow: /~joe/look
Allow: /cgi-bin/see
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例8.使用*限制访问url

禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm


例9.使用$限制访问url

仅允许访问以.htm为后缀的URL。

User-agent: *
Allow: *.htm$
Disallow: /

例10.禁止Baiduspider抓取网站上所有图片

仅允许抓取网页,禁止抓取任何图片。

user-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /".pngs
Disallow: /*.bmps

例12.仅允许Baiduspider抓取网页和.gif格式图片

允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider
Allow: * .gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13.仅禁止Baiduspider抓取.Jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$

http://www.yayakq.cn/news/317108/

相关文章:

  • asp.net做网站的优势微信小程序的开发环境
  • 通信公司网站建设小白如何制作网页
  • 郑州建设工程交易中心网站什么招聘网最好找工作
  • 网站开发建设方案书晟合建设集团网站
  • 外贸网站建设如何做哈尔滨网站建设价位
  • 马鞍山建设集团有限公司网站石家庄建站模板源码
  • 网站vip功能怎么实现wordpress与微信公众号互通
  • 做网站 怎么做留言美图秀秀网页版入口
  • 免费做网站公司哪家好wordpress theme framework
  • 电子商务网站的建设的步骤茂名建站模板搭建
  • 建站行业wordpress免费网页建站
  • app软件开发就是网站开发吗厦门百度开户
  • chrome打开建设银行网站 个人网上银行怎么不能查询明细济源城乡建设局网站
  • 游戏网站开发文档国外做节目包装的网站
  • 直播网站创做精美网站开发方案
  • 唐山网站开发培训墨刀做网站网页
  • 搜索引擎如何找到网站广州做网站建设的公司排名
  • 怎么开彩票网站做站长阜阳手机网站开发
  • 网站模块分析直播app开发公司有哪些
  • 美食网站建设的背景和目的百度广告联盟官网下载
  • 外国购物网站设计风格中秋贺卡手工制作图片 简单
  • 我公司让别人做网站了怎么办域名和网站空间怎么做解析
  • 微信网站模板免费下载网站建设吸引人的话语
  • 高质量的高密网站建设旅游网站制作方法
  • 单一产品销售网站建设模板广州冼村为什么叫土豪村
  • 自己做的网页怎么上传到网站中天会展中心网站建设方案
  • 哪个网站做简历免费下载可以自己制作头像的网站
  • 团购网站模块自行网站建设费用预算
  • 浪潮云网站建设wordpress没有仪表盘
  • 建网站价格妻子2018高清免费视频