互联网技术 · 2023年11月25日 0

robots.txt的定义及WordPress的写法与生成工具使用方法

robots.txt的定义及WordPress的写法与生成工具使用方法

对于初学者来说,robots.txt文件的作用可能并不十分清晰,更不用说它与网站SEO之间的联系了。

今天,我将为大家介绍如何正确编写robots.txt文件,以帮助提升网站的SEO效果。

什么是robots.txt

robots.txt,又称为robots协议,是国际互联网中广泛认可的道德规范。

这个文本文件位于网站根目录,主要用于告知搜索引擎哪些页面可以被抓取,哪些页面不可以。此外,它还可以屏蔽一些大型文件(如图片、音乐、视频等),以节省服务器带宽,并防止搜索引擎抓取一些死链接。同时,robots.txt还可以设置网站地图的链接,以方便引导搜索引擎爬取页面。

如何创建robots.txt文件

创建robots.txt文件非常简单。你只需使用文本编辑软件(如记事本),新建一个名为robots.txt的文本文件,然后将其上传到网站的根目录即可。

此外,你也可以利用在线的robots生成工具来生成该文件。

如何编写robots.txt规则

单独创建robots.txt文件是不够的,编写适合自己网站的规则才是关键。

robots.txt支持以下规则:

  • User-agent: * 这里的*表示所有的搜索引擎类型,*是一个通配符
  • Disallow: /admin/ 禁止抓取admin目录
  • Disallow: /require/ 禁止抓取require目录
  • Disallow: /ABC/ 禁止抓取ABC目录
  • Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下所有以”.htm”为后缀的URL(包括子目录)
  • Disallow: /*?* 禁止访问所有包含问号 (?) 的网址
  • Disallow: /.jpg$ 禁止抓取所有.jpg格式的图片
  • Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件
  • Allow: /cgi-bin/ 允许爬取cgi-bin目录
  • Allow: /tmp 允许爬取tmp目录
  • Allow: .htm$ 仅允许访问以”.htm”为后缀的URL
  • Allow: .gif$ 允许抓取.gif格式的图片
  • Sitemap: 网站地图 让爬虫知道网站地图的地址

建议使用站长工具的robots生成工具来编写规则,操作更加简单明了。

WordPress的robots.txt规则推荐

安装WordPress后,系统会自动生成一个虚拟的robots.txt文件(在网站目录中看不到,但可以通过“网址/robots.txt”访问)。

默认的规则如下:

User-agent: * 
Disallow: /wp-admin/ 
Allow: /wp-admin/admin-ajax.php

这意味着,所有搜索引擎被禁止抓取wp-admin文件夹下的内容,但允许抓取/wp-admin/admin-ajax.php文件。

为了提升网站的SEO和安全性,我建议对规则进行进一步完善。以下是我目前的robots.txt规则:

User-agent: * 
Disallow: /wp-admin/ 
Disallow: /wp-content/plugins/ 
Disallow: /?s=* 
Allow: /wp-admin/admin-ajax.php  
User-agent: YandexBot 
Disallow: /  
User-agent: DotBot 
Disallow: /  
User-agent: BLEXBot 
Disallow: /  
User-agent: YaK 
Disallow: /  
Sitemap: https://blog.naibabiji.com/sitemap_index.xml

在默认规则的基础上,我添加了以下两行:

  • Disallow: /wp-content/plugins/ 禁止抓取/wp-content/plugins/文件夹
  • Disallow: /?s=* 禁止抓取搜索结果页面

/wp-content/plugins/是WordPress插件的存放目录,禁止抓取可以避免隐私风险(例如某些插件可能存在隐私泄露的bug)。

禁止抓取搜索结果页可以防止网站被利用来刷权重:

/?s=*的网址是WordPress的默认搜索结果页面,可能会被搜索引擎抓取。

后面的规则是针对特定搜索引擎的限制以及网站地图的链接,帮助优化网站。

如何检测robots.txt是否生效

创建并编写好robots.txt规则后,可以使用百度站长的robots检测工具来检查其是否生效。

需要注意的是,百度的工具不支持https网站的检测,可以使用爱站的工具进行验证。

相关文章:

限制Bing等搜索引擎抓取频率降低服务器负载

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]