重复的内容是两个或多个包含相同或非常相似文本的页面。重复的内容会分割链接权限,从而削弱页面对自然搜索结果进行排名的能力。
假设一个网站有两个相同的页面,每个页面都有10个外部入站链接。该网站本可以利用20个链接的强度来提高单个页面的排名。而是,该站点有两个包含10个链接的页面。两者都不会排名很高。
重复的内容还会损害抓取预算,否则会使搜索引擎的索引膨胀。
电子商务网站创建重复的内容。它是平台设置和技术决策的副产品。以下是从搜索引擎索引中删除重复内容的两种好方法 -以及避免的六种方法。
一、删除索引重复内容
要更正编入索引的重复内容,(i)将链接权限合并到单个页面中,以及(ii)提示搜索引擎从其索引中删除重复的页面。有两种好的方法可以做到这一点。
(1)301重定向是最好的选择。301重定向以合并链接权限,提示取消索引,还将用户重定向到新页面。Google已声明,它使用301重定向将100%的链接权限分配给新页面。但是必应和其他搜索引擎的口碑更为严格。无论如何,仅当页面已被永久删除时,才使用301重定向。
(2)规范标签。“规范”是一个被认为是唯一真理的花哨词。在搜索引擎优化中,规范标签可识别应为哪个页面建立索引并分配链接权限。标签是对搜索引擎的建议,而不是诸如301重定向之类的命令。搜索引擎通常会使用规范标签来真正复制内容。
当(i)301重定向不切实际或(ii)重复页面需要保持可访问性时,例如,如果您有两个产品网格页面,一个从高到低排序,另一个低-至高,您不想将一个重定向到另一个。
二、避免的8种方法
根据我的经验,建议不要使用某些选项(或声称要删除)从搜索索引中重复的内容。
(1)302重定向信号。表示临时移动而非永久移动。多年来,Google一直说302重定向通过了100%的链接授权。但是,302不会提示取消索引。由于它们执行与301相同的工作量,因此仅当重定向确实是临时的并且有朝一日将被删除时,才应使用302重定向。
Google认为JavaScript重定向是有效的,经过几天或几周才能完成渲染。但是没有理由使用JavaScript重定向,除非您缺乏301的服务器访问权限。
(2)网页加载速度。在浏览器加载新页面之前,购物者可以在屏幕上看到短暂的提示或几秒钟的页面加载,从而看到元刷新。由于令人讨厌的用户体验以及Google需要将它们作为重定向处理的渲染时间,因此,它们是一个糟糕的选择。
(3)404错误。显示请求的文件不在服务器上,提示搜索引擎对该页面进行索引删除。但是404也会删除页面的关联链接权限。如果可以,请尝试301重定向已删除的页面。
当服务器302将错误的URL重定向到看起来像错误页面的URL时,就会出现软404错误,然后该错误页面将返回200 OK服务器标头响应。例如,例如example.com/page/已被删除,应返回404错误。相反,它302重定向到看起来像错误页面的页面(例如www.example.com/error-page/),但返回200 OK响应。
302响应无意中告诉搜索引擎www.example.com/page/已经消失,但可能会回来,因此该页面应该保持索引。此外,200响应告诉搜索引擎www.example.com/error-page/是用于索引的有效页面。因此,软404不仅导致索引了一个错误的URL,而且还导致了两个错误,从而使索引进一步膨胀。
(4)搜索引擎工具。 Google和Bing提供了删除URL的工具。但是,由于两者都要求提交的URL返回有效的404错误,因此从服务器删除页面后,这些工具是备份步骤。
(5)Meta robots noindex标记 位于HTML文件的开头。该NOINDEX属性告诉漫游器不要对网页进行索引。在将页面编入索引后应用时,它最终可能导致取消索引,但这可能要花费几个月的时间。不幸的是,链接授权因引擎索引页面的能力而消失。并且由于搜索引擎必须继续爬网页面以验证noindex属性是否仍然存在,因此该选项不会减少索引的静态页面。(请注意,顺便说一句,meta robots标记的nofollow属性对该页面的索引没有影响。)
(6)Robots.txt disallow 不会提示取消索引。被索引的页面不允许再被搜索引擎机器人抓取,但是它们可能会或可能不会保持索引。除非通过URL搜索,否则这些页面不太可能出现在搜索结果中,因为搜索引擎将不再抓取该页面。
虽然他们不是理想的去除索引内容,荟萃机器人NOINDEX和的robots.txt 不允许既要防止被索引新的重复内容。但是,其应用要求在启动新站点之前识别重复的内容,并且它们并不是100%有效的。
如果您需要确定的取消索引方法,最好的选择是301重定向或404错误,因为服务器不再加载该页面上找到的内容。如果您需要为页面取消索引并利用链接权限,请使用301重定向。