我在百度站长平台测试我的博客时,由于优化的惯性,测试了我博客的Rbots,然后在百度上搜索了wordpress博客机器人的写作设置。看了很多wordpress专家对机器人的设置进行优化,终于有了一些感悟。这里也分享给一些wordpress新手,看看如何利用好robots.txt优化wordpress博客。
先来普及一下robots.txt的概念:
Robots.txt(统一小写)是一个ASCII编码的文本文件,存储在网站的根目录下。它通常会告诉网页搜索引擎的漫游者(也称网络蜘蛛),这个网站中的哪些内容是搜索引擎的漫游者无法获取的,哪些是(漫游者)可以获取的。该文件用于指定蜘蛛对你网站的抓取范围,在一定程度上保护了网站的安全和隐私。同时也是网站优化的工具,比如屏蔽和抓取网站的重复内容页面。
Robots.txt目前不是标准,是协议!所以现在很多搜索引擎对robots.txt中的命令参数有不同的看法
二、使用robots.txt时需要注意的几点:
1.指令区分大小写,未知指令被忽略。下图是这个博客的robots.txt文件在Google管理员工具中的测试结果;
2.每行代表一条指令,空白和隔行将被忽略;
3.“#”后的字符参数将被忽略;
4.具有独立用户代理的规则将被排除在具有“*”用户代理的规则之外;
5.可以写sitemap文件的链接,方便搜索引擎蜘蛛抓取整个网站内容。
6.尽可能少地使用Allow指令,因为不同搜索引擎会以不同方式处理不同位置的Allow指令。
三、Wordpress的robots.txt优化设置
1、用户代理:*
一般blog的robots.txt指令是为所有的蜘蛛程序设置的,用通配符“*”即可。如果有一个独立的用户代理指令规则,尽量把它放在通用的“*”用户代理规则之上。
2、不允许:/wp-admin/
不允许:/wp-content/
不允许:/wp-includes/
屏蔽蜘蛛的抓取程序文件,同时保存搜索引擎蜘蛛资源。
3、不允许:/*/trackback
在默认的文章页面代码中,有一个指向trackback的链接。如果不屏蔽,让蜘蛛抓取,网站就会出现页面内容重复的问题。
4、禁止:/feed
不允许:/*/feed
不允许:/评论/订阅源
标题中的feed链接主要是提示浏览器用户订阅这个站点,而一般的站点都有RSS输出和网站地图,所以屏蔽搜索引擎抓取这些链接就节省了蜘蛛资源。
5、不允许:/?s=*
不允许:/*/?s=*
这个没必要解释。在捕获站中阻止搜索结果。站内没有这些链接不代表站外没有链接。如果它们被包含,它们将类似于TAG和其他页面的内容。
6、不允许:/?r=*
屏蔽消息链接插件留下的变形消息链接。(当然,如果没有安装相关插件,就不需要这个说明)
7、不允许:/*。jpg美元
不允许:/*。jpeg美元
不允许:/*。gif$
不允许:/*。巴布亚新几内亚美元
不允许:/*。bmp$
这里屏蔽任何图片文件主要是为了节省一些带宽。不同的站长可以根据自己的喜好和需求来设置这些指令。
8、不允许:/?p=*
屏蔽短链接。头部默认的短链接,百度等搜索引擎蜘蛛会想办法捕捉。虽然短链接最终会被重定向到301中的固定链接,但这仍然造成了蜘蛛资源的浪费。
9、不允许:/*/comment-page-*
不允许:/*?回复通讯*
阻止链接以捕获消息信息。一般不会收录这类链接,但是为了节省蜘蛛资源,也会屏蔽掉。
10、不允许:/a/date/
不允许:/a/作者/
不允许:/a/类别/
不允许:/?p=*preview=true
不允许:/?page_id=*preview=true
不允许:/wp-login.php
阻止其他各种链接,以避免重复内容和隐私问题。
10、网站地图:http://***。com/sitemap.txt
映射地址指令,主流是txt和xml格式。把网站的地图地址告诉搜索引擎,这样搜索引擎就可以抓取到全站的内容。当然,你可以设置多个地图地址。需要注意的是,Sitemap的S要大写,地图地址也要绝对。
上述禁止指令都不是强制性的,可以根据需要编写。也建议站点打开Google管理员工具,检查站点的robots.txt是否标准。
好了,以上就是robots.txt优化wordpress博客的细节,希望可以帮助到和我一样是wordpress博客新手的同学。
Ax公牛加速器专注于游戏加速服务,数百个节点部署在全球各地,可以有效解决游戏中遇到的游戏问题,如高延迟、登录卡顿、掉帧、闪烁等。Axe加速支持数百款游戏的加速,让你尽情享受玩国服游戏的乐趣。