关于搜寻引擎索引和网站地图sitemap的问题

摘要

网站地图Sitemap的作用是提供辅助信息给搜寻引擎进行索引(例如个别UniversalResourceIdentifier(URI)资源的更新频率、最后更新日期等等)。网站地图的作用和结构是很容易理解,做法一般看起来很简单。就是将网站进行一次全面的爬行(例如用ScreamingFrog工具),

网站地图 Sitemap 的作用是提供辅助信息给搜寻引擎进行索引 (例如个别 Universal Resource Identifier (URI) 资源的更新频率 、最后更新日期等等)。网站地图的作用和结构是很容易理解,做法一般看起来很简单。就是将网站进行一次全面的爬行 (例如用 ScreamingFrog 工具), 将所有的 URI 都放在网站地图 XML 档案里面。但事实并不是那么简单,例如你的网站 URI 可以很多种类:文章、帖子、产品、作者、图片、 视频、 分类、标签、portfolio 等等。你当然可以要求全部 URI 都放在网站地图里面。但放与不放其实是一个质量的考虑,例如 portfolio 内是你的一些客户实例,但内容只有一张图片。这张图片基本上以图像 URI 的形式已经加到索引数据库中,再索引这个 portfolio 的意义不大,因为其实是一个 剪薄内容 thin content, 在这种情况下你应该选择不索引这个 portfolio, 为什么呢?

何时选择不索引

内容浅薄。一般都相信搜寻引擎对网站是有一个质量评分 Quality Score。质量评分很可能是来自 各个被索引的 URI 的质量计算,所以一些质量低单薄的内容可能会将整体网站的质量评分拖低,所以就有尽可能不索引一些浅薄的内容的说法。浅薄的内容一般无法在搜寻引擎排名中取得高位,只能在访客进入网站以后透过内部的结连访问得到,所以不索引浅薄的内容对吸引自然搜寻流量是没有负面影响。既然搜寻引擎索引网站的内容是要消耗 crawl budget 爬行预算, 所以不索引一些冇排名价值的内容,是善用爬行预算,增加质量评分的手段。

一些专业的建立网站地图的工具,例如 WordPress 上面的 Yoast SEO 插件,就可以让你自由设定当建立网站地图时,是否要加入不同类型的 URI

甚至你可以在个别的页面决定是否索引该页面,做法就是将页面定义为 content=”noindex”。

除了质量的考虑,很多时候为了防范黑客入侵,不想将太多的网站结构性资料曝光在搜寻用户面前。你可以透过 robots.txt 提示搜寻引擎不要索引网站内的一些目录,避免一些敏感资料可能在不经意的情况下被搜寻引擎取得到而暴露在黑客的面前。 同时亦可善用爬行预算。

另一个原因不索引是考虑到 cannibalization 关键字竞食的问题。当两个内容非常相近的 url 同时被收录到索引数据库是,对搜寻引擎可能会造成混乱:究竟当关键字搜寻查询时该列出 a 页还是b 页呢?很多blogger 新手误解标签和分类的用法,将标签和分类都标示为同一个关键字,这样其实也造成了关键字竞食的问题。但如果这个 B 页 URL 是没有排名价值,但在访客立场是一个热门浏览的网页,只是浏览是透过内部结连所引发。这个时候不单纯是不索引,更应该将访问浏览可能带来的排名优势归到 A 页。这亦是 Yoast SEO 插件标准网址 Standard URL 的用法。

检查索引状态

你如何知道某 URL 是否比索引。你可以在 Google Search Console (GSC) 的后台输入 URL 然后 (选 “网址审查”),查询是否被索引了。当发现内容不被索引时你可以要求 Google 进行单独索引该 URL 。

你可以在搜寻页面输入一个 site 指令,看看你整个网站有多少页面已经被放在索引 数据库中。搜寻引擎有时会为同一个url的不同版本保留索引资料,特别是当这个改动只是在元标题 meta title 和元描述 meta description 中时。 保留索引资料的做法是对配对用户搜寻查询时有更多的选择。

当你发现索引数据库中的项目数量比你整个网站的页面和产品的总和都多很多,就可能表示是由于一些 URL 参数 (例如产品筛选) 所衍生出来的网址。数量太多表示爬行预算会受到影响,你应该采取行动,例如在 GSC 中将该参数排除。

URL 不被索引的可能

如果你的网站很大。索引可能需要时间。如果您发现某些 URL 尚未编入索引则是合理的。有几种情况下 URL 可能不被索引:

例如当搜寻引擎发现类似的内容已经被加入到索引数据库里面。最常见的例子就是产品的描述是一模一样,例如你将同一件衣服大中细码变成三个不同的产品,搜寻引擎就可能只索引其中一件产品,另外两个搜寻引擎会看成重复的内容不索引。

技术性问题。例如当你采用一些特别的技术如 AMP 网页技术时,当搜寻引擎发现一些网页的内部问题不符合技术规格时,就可能决定不索引这个网页然后回报错误,你需要在 GSC 后台查看错误,修正问题然后再重新提交 URL。

搜寻引擎索引速度

虽然你可以在网站地图之中告诉搜寻引擎 URL 更新频率,但这并不表示搜寻引擎会根据您提供的信息,更频密访问您的网站 。搜寻引擎决定是否在进行索引是考虑先前 索引你网站时所发现的优质内容有多少和更新有多少。当越多优质内容网站更新越频密,搜寻引擎自然会更多访问你的网站进行索引。索引的速度快慢不是你付钱给 搜寻引擎公司可以改变的。

匿名

发表评论

匿名网友