前端学堂(好切网)-Web前端开发,网页切图教程分享平台
前端学堂(好切网),PS网页切图,专业WEB前端外包网站
您的位置:首页 > 前端学堂 > SEO优化

robots.txt写法 允许或禁止搜索引擎收录

2017-03-24 08:25:25分类:SEO优化阅读(293)

robots.txt是为有特别情况的站长准备的,因为有些网站,有一些页面是站长不允许被搜索引擎收录的,所以才有了robots.txt文件。

robots.txt是一个纯文本文件,当搜索引擎访问一个网站时,会先检查站点根目录下是否存在robots.txt,如果存在,就会按照该文件中的内容来确定访问的范围;如果该文件不存在,搜索引擎将会根据网页链接抓取网站页面。

我们可以通过书写robots.txt文件,设置我们允许或禁止搜索引擎收录的页面。

robots.txt书写用法举例:

例1、禁止搜索引擎收录网站的任何页面

User-agent: *
Disallow: /

例2、允许搜索引擎收录网站所有页面

User-agent: *
Disallow:

(或者也可以建一个空的 "robots.txt" 文件)

例3、禁止某个搜索引擎收录

User-agent: BadBot
Disallow: /

例4、只允许某个搜索引擎收录

User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /

例5、禁止搜索引擎收录某些页面

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /joe/

上例限制搜索引擎收录“/cgi-bin/”、“/tmp/”、“/joe/”这三个目录下的所有页面。需要注意的是,对每一个目录必须分开声明,而不要写成:“Disallow: /cgi-bin/ /tmp/”。

User-agent:后的*(通配符) 具有特殊的含义,代表“any robot”。

另外,robots.txt主要作用是保障网络安全与网站隐私,百度蜘蛛遵循robots.txt协议。通过根目录中创建的纯文本文件robots.txt,网站就可以声明哪些页面不想被百度蜘蛛爬行并收录,每个网站都可以自主控制网站是否愿意被百度蜘蛛收录,或者指定百度蜘蛛只收录指定的内容。当百度蜘蛛访问某个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果该文件不存在,那么爬虫就沿着链接抓取,如果存在,爬虫就会按照该文件中的内容来确定访问的范围。

原文链接:http://www.hqhtml.com/seo/24.html,出自好切网(前端学堂),转载请注明出处。
标签:搜索引擎
相关阅读 ~
推荐文章

© 2016 好切网(hqhtml.com) 长春诺阳科技有限公司(网页前端切图) 版权所有 吉ICP备15007500号