SEO首先要处理的问题就是让搜索引擎收录网站,因为只有收录了页面才有机会展示自己的排名。然而,在某些情况下,不允许搜索引擎收录特定的网页,反而是有益的。以下是如何限制搜索引擎收录网页。

一、收录的基本概念

我们先简单描述一下这篇文章中反复出现的词——收录,以及它在SEO中起到了什么样的脚色。一般来说,搜索引擎机器人(bot)会根据网页之间的链接来抓取网页,抓取网页后将有用的信息放入数据库。这个过程叫做索引,也是本文的主题——收录。

没有被收录,是不可能出现在搜索结果中的,更别说排名了。对于SEO来说,网站被正确收录是非常重要的。但是,并不是简单的说收录的内容越多越好。如果一个网站收录大量的垃圾内容,会让搜索引擎降低网站的评级,可能会降低网站的权重。

如何禁止网站被搜索引擎收录?插图

二、什么样的页面不需要被收录?

1、刚上线的网站

在测试或填充内容的阶段,网站信息通常是不完整的,甚至是不正确的。一般网站刚上线不久。如果现阶段被搜索引擎收录,搜索引擎可能会误解为网站内容质量不好。对于SEO来说无疑是一个很大的扣分,建议避免这样的情况。

2、不能公开的内容

很多网站都有用户信息,公司内部信息,后台环境,资料库等。如果服务器设置不正确,并且搜索引擎没有被阻止爬行和收录,这些内容也可能被索引并直接发布在互联网上。过去确实发生过类似的情况。

3、不重要的页面

很多网站都是这样的情况。网站或多或少会包含一些没有搜索价值的页面,比如:版权声明、法律条款、登录页面、结账确认页面、用户资料页面等。当这些页面在收录页面中的比例过高时,可能会被搜索引擎误解为网站内容是空的,从而伤害网站的权重。

三、禁止网页被收录的方法

1、noindex 标签

使用“noindex”禁止搜索引擎抓取页面,在不希望被收录的网页中使用以下说明:

<meta name=”robots” content=”noindex”>

这种方法可以有效地解决无用页面的问题。也是推荐的方法,可以解决大部分问题。操作简单,就是需要单页设置。页面多的话执行起来会比较困难,需要在后台开发单页代码插入功能。

2、robots.txt协议

Robots.txt文件位于网站的根目录,可以向搜索引擎爬虫显示你不想被收录的网站内容的路径。大多数情况下可以解决不想被收录的问题。但是robots.txt本身还是有一定的局限性。比如不是强制指令,所以不是每个搜索引擎都会完全遵守robots.txt中的协议。

3、服务器设定解决

直接在服务器上将目录或文件设置为密码访问。例如,当使用Apache web服务器时,您可以编辑.htaccess文件使目录受到密码保护。这样可以保证搜索引擎不会抓取,这是最根本也是绝对有效的方法。但这种设置也意味着用户无法查看网页,可能不符合网站设计的目的。因此,这种方法通常只适用于敏感资料上。

总结:当我们使用以上方法来设置和排除一些不需要收录的页面时,会对SEO有所帮助。但在实际操作中,一定要特别注意避免设置错误。如果因为粗心或者错误的页面,导致原来排名的页面被去掉收录,后面搜索引擎重新收录需要时间,现有的流量也会流失,所以尽量避免这样的情况。