robots.txt的定义及WordPress的写法与生成工具使用方法
对于初学者来说,robots.txt文件的作用可能并不十分清晰,更不用说它与网站SEO之间的联系了。
今天,我将为大家介绍如何正确编写robots.txt文件,以帮助提升网站的SEO效果。
什么是robots.txt
robots.txt,又称为robots协议,是国际互联网中广泛认可的道德规范。
这个文本文件位于网站根目录,主要用于告知搜索引擎哪些页面可以被抓取,哪些页面不可以。此外,它还可以屏蔽一些大型文件(如图片、音乐、视频等),以节省服务器带宽,并防止搜索引擎抓取一些死链接。同时,robots.txt还可以设置网站地图的链接,以方便引导搜索引擎爬取页面。
如何创建robots.txt文件
创建robots.txt文件非常简单。你只需使用文本编辑软件(如记事本),新建一个名为robots.txt的文本文件,然后将其上传到网站的根目录即可。
此外,你也可以利用在线的robots生成工具来生成该文件。
如何编写robots.txt规则
单独创建robots.txt文件是不够的,编写适合自己网站的规则才是关键。
robots.txt支持以下规则:
- User-agent: * 这里的*表示所有的搜索引擎类型,*是一个通配符
- Disallow: /admin/ 禁止抓取admin目录
- Disallow: /require/ 禁止抓取require目录
- Disallow: /ABC/ 禁止抓取ABC目录
- Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以”.htm”为后缀的URL(包括子目录)
- Disallow: /*?* 禁止访问所有包含问号 (?) 的网址
- Disallow: /.jpg$ 禁止抓取所有.jpg格式的图片
- Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件
- Allow: /cgi-bin/ 允许爬取cgi-bin目录
- Allow: /tmp 允许爬取tmp目录
- Allow: .htm$ 仅允许访问以”.htm”为后缀的URL
- Allow: .gif$ 允许抓取.gif格式的图片
- Sitemap: 网站地图 让爬虫知道网站地图的地址
建议使用站长工具的robots生成工具来编写规则,操作更加简单明了。
WordPress的robots.txt规则推荐
安装WordPress后,系统会自动生成一个虚拟的robots.txt文件(在网站目录中看不到,但可以通过“网址/robots.txt”访问)。
默认的规则如下:
User-agent: * Disallow: /wp-admin/ Allow: /wp-admin/admin-ajax.php
这意味着,所有搜索引擎被禁止抓取wp-admin文件夹下的内容,但允许抓取/wp-admin/admin-ajax.php文件。
为了提升网站的SEO和安全性,我建议对规则进行进一步完善。以下是我目前的robots.txt规则:
User-agent: * Disallow: /wp-admin/ Disallow: /wp-content/plugins/ Disallow: /?s=* Allow: /wp-admin/admin-ajax.php User-agent: YandexBot Disallow: / User-agent: DotBot Disallow: / User-agent: BLEXBot Disallow: / User-agent: YaK Disallow: / Sitemap: https://blog.naibabiji.com/sitemap_index.xml
在默认规则的基础上,我添加了以下两行:
- Disallow: /wp-content/plugins/ 禁止抓取/wp-content/plugins/文件夹
- Disallow: /?s=* 禁止抓取搜索结果页面
/wp-content/plugins/是WordPress插件的存放目录,禁止抓取可以避免隐私风险(例如某些插件可能存在隐私泄露的bug)。
禁止抓取搜索结果页可以防止网站被利用来刷权重:
/?s=*的网址是WordPress的默认搜索结果页面,可能会被搜索引擎抓取。
后面的规则是针对特定搜索引擎的限制以及网站地图的链接,帮助优化网站。
如何检测robots.txt是否生效
创建并编写好robots.txt规则后,可以使用百度站长的robots检测工具来检查其是否生效。
需要注意的是,百度的工具不支持https网站的检测,可以使用爱站的工具进行验证。
相关文章:
限制Bing等搜索引擎抓取频率降低服务器负载
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
