广州网站建设主要从事:广州网站建设,广州网站设计,广州网站制作,网站来样制作,各类行业网站建站服务!

设为首页·互动网络·在线留言·广州建网站·网站导航·动画版
  • 网站首页
  • 网站建设
  • 网站专题
  • 新闻信息
  • 程序代码
  • 常用工具
  • 网站案例
  • 站长工具
  • 建站流程
您的位置:网站首页 >> 网站专题 >> 网站SEO优化 >> robots简介
  •  网站专题
   建站经验
   网页设计
   网站SEO优化
   WEB2.0
  •  推荐信息
  • 百度与GOOGLE对网站优化se
  • 做网站时SEO布局
  • 网站制作:HTML、CSS和Ja
  • 增加反向链接的技巧
  • 做一个赚钱的网站
  • 广州网站建设尺寸的标准
  • 广州网站建设中用户的视觉要求
  • 网站建设之web2.0和web3
  • 如何提高网站的访问量?提高网站访
  • 广州专业网站建设中XHTML和W
  •  热门标签
广州SEO服务
广州建站
服务器
公司网站
广州网站建设
网站快照优化
企业建站
企业网站建设
网站优化
企业网站
广州建网站
搜索引擎优化
广州网页优化
广州SEO优化
广州网站优化
广州网站设计
SEO优化套餐
杭州网站建设
上海网站建设
北京网站建设
南京网站设计
广州做网站
网站设计报价
深圳做网站
深圳网站建设
天津建站
成都做网站
武汉网站建设
站长工具
seo工具
广州网站价格
模板
广州做网站的公司
网站建设报价
网站开发
网络公司
网页设计
网络营销
网站制作
网站设计
网络推广
网店推广
网站推广
开网店
网页标题
电子商务
SEO优化
网店开发
网站建设
网站优化套餐

robots简介

广州建站  发布日期:2010-11-4 0:00:24  分类:网站SEO优化  来源:localhost  【大 中 小】 返回  
  下一篇:网页META标签的标准写法(1) ⊕ 上一篇:暂无  
    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。

    您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。


  robots.txt(统一小写)是一种存放于网站根目录下的ascii编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的漫游器获取的,哪些是可以被(漫游器)获取的。 因为一些系统中的url是大小写敏感的,所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。


  robots.txt协议并不是一个规范,而只是约定俗成的,所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取url,所以目录末尾有和没有斜杠“/”这两种表示是不同的url,也不能用'disallow: *.gif'这样的通配符。


  其他的影响搜索引擎的行为的方法包括使用robots元数据:
  

  这个协议也不是一个规范,而只是约定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面


  robots.txt文件放在哪里?


  robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站(比如http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

robots.txt文件的格式:

'robots.txt'文件包含一条或更多的记录,这些记录通过空行分开(以cr,cr/nl, or nl作为结束符),每一条记录的格式如下所示:


  ':'。


  在该文件中可以使用#进行注解,具体使用方法和unix中的惯例一样。该文件中的记录通常以一行或多行user-agent开始,后面加上若干disallow行,详细情况如下:


  user-agent:


  该项的值用于描述搜索引擎robot的名字,在'robots.txt'文件中,如果有多条user-agent记录说明有多个robot会受到该协议的限制,对该文件来说,至少要有一条user-agent记录。如果该项的值设为*,则该协议对任何机器人均有效,在'robots.txt'文件中,'user-agent:*'这样的记录只能有一条。


  disallow:


  该项的值用于描述不希望被访问到的一个url,这个url可以是一条完整的路径,也可以是部分的,任何以disallow开头的url均不会被robot访问到。例如'disallow:/help'对/help.html 和/help/index.html都不允许搜索引擎访问,而'disallow:/help/'则允许robot访问/help.html,而不能访问/help/index.html。任何一条disallow记录为空,说明该网站的所有部分都允许被访问,在'/robots.txt'文件中,至少要有一条disallow记录。如果'/robots.txt'是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。


  allow:


  该项的值用于描述希望被访问的一组url,与disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以allow项的值开头的url是允许robot访问的。例如'allow:/hibaidu'允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有url默认是allow的,所以allow通常与disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有url的功能。


  需要特别注意的是disallow与allow行的顺序是有意义的,robot会根据第一个匹配成功的allow或disallow行确定是否访问某个url。


  使用'*'和'$':


  robots支持使用通配符'*'和'$'来模糊匹配url:


  '$' 匹配行结束符。


  '*' 匹配0或多个任意字符。

robots.txt语法教程

 用几个最常见的情况,直接举例说明:


  1. 允许所有se收录本站:robots.txt为空就可以,什么都不要写。


  2. 禁止所有se收录网站的某些目录:


  user-agent: *


  disallow: /目录名1/


  disallow: /目录名2/


  disallow: /目录名3/


  3. 禁止某个se收录本站,例如禁止百度:


  user-agent: baiduspider


  disallow: /


  4. 禁止所有se收录本站:


  user-agent: *


  disallow: /


  5. 加入sitemap.xml路径,例如:


  sitemap: http://www.seotest.cn/sitemap.xml

常见robots名字

        名称 搜索引擎


  google蜘蛛: googlebot


  百度蜘蛛:baiduspider


  yahoo蜘蛛:slurp


  alexa蜘蛛:ia_archiver


  msn蜘蛛:msnbot


  altavista蜘蛛:scooter


  lycos蜘蛛: lycos_spider_(t-rex)


  alltheweb蜘蛛: fast-webcrawler/


  inktomi蜘蛛: slurp


  一个在线写robots.txt的工具。


  http://www.clickability.co.uk/robotstxt.html


  最后需要注意,robots.txt文件名必须是小写,而且放在网站根目录,比如:http://www.seotest.cn/robots.txt

robots meta标签的写法:

  robots meta标签中没有大小写之分,name=”robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”baiduspider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。


  index 指令告诉搜索机器人抓取该页面;


  follow 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;


  robots meta标签的缺省值是index和follow,只有inktomi除外,对于它,缺省值是index,nofollow。


  这样,一共有四种组合:


  <meta name=”robots” content=”index,follow”>


  <meta name=”robots” content=”noindex,follow”>


  <meta name=”robots” content=”index,nofollow”>


  <meta name=”robots” content=”noindex,nofollow”>


  其中


  <meta name=”robots” content=”index,follow”>可以写成<meta name=”robots” content=”all”>;


  <meta name=”robots” content=”noindex,nofollow”>可以写成<meta name=”robots” content=”none”>


  目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于robots meta标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎google就完全支持,而且google还增加了一个指令“archive”,可以限制google是否保留网页快照。例如:


  <meta name=”googlebot” content=”index,follow,noarchive”>


  表示抓取该站点中页面并沿着页面中链接抓取,但是不在goolge上保留该页面的网页快照。

禁止抓取图片:

  user-agent: *


  disallow: .jpg$


  jpg可以代替为gif,png 等等...

禁止显示快照,但允许收录:

  要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的 部分:


  


  要允许其他搜索引擎显示快照,但仅防止搜索引擎显示,请使用以下标记:


  

  注:robots网页的通常写法:<meta name='robots' content='all'>

 Tags: 搜索引擎,SEO
  下载:robots简介.doc  
  下一篇:网页META标签的标准写法(1) ⊕ 上一篇:暂无  返回上一页  
建站经验
  • 网站结构如何让爬虫充分爬行
  • 假面:不利于网站优化的常见代码分
  • 网站搜索引擎的内部优化的关键点
  • 域名被删除或者停用对网络推广的影
  • 网站建设中应具备三个要素:思想、
  • 网站优化十大核心定律你了解多少
网页设计
  • 网页配色表
  • 网站制作:网页设计时必须注意的四
  • 网页设计师两项必备的基本能力
  • 网站制作:HTML5文件实现拖拽
  • 广州专业网站建设中XHTML和W
  • 良好的网页设计应注意以下几点
网站SEO优化
  • 何涛:SEO的最高境界是什么?
  • 新手朋友到底应该如何学习SEO
  • 网站针对百度进行SEO优化时应该
  • 淘客吧:搜索引擎对SEO网站优化
  • 浅分析SEO细节之div+CSS
  • 维尼:煌上煌集团的SEO推广方案
WEB2.0
  • 广州网页设计:web2.0介绍
  • 广州网页设计:WEB2.0,新一
  • 环球企业家:web2.0创业时代
  • Web2.0在2010年上半年行
  • 广州网页设计:Web3.0:虚幻
  • 网站建设之web2.0和web3
网站首页 | 关于我们 | 建站流程 | 网站建设 | 网站专题 | 新闻信息 | 程序代码 | 常用工具 | 网站案例 | 友情链接 | 网站导航

百度网站地图 | GOOGLE网站地图 |

为您提供高品质的广州网站建设、广州建站、网站制作、网站开发、网站设计、做网站、网页制作、服务!
网站企业模板,广州网站设计,广州网站价格,广州网站设计报价,广州网站建设报价,广州网站推广,广州网站模板,我要建站

Copyright @ 2001 - 2012 localhost,广州网站建设 All Rights Reserved. 粤ICP备05066343号 技术支持:互动网络 Update:2012-5-17