什么是孤岛页面以及如何修复它们
摘要
什么是孤岛页面?
孤岛页面(Orphan pages)是未与同一网站上的其他页面或部分进行内部链接的网页,因此很难找到它们,因为没有路径通向它们。换句话说,如果没有直接链接,访问者或爬虫将无法通过网站找到它们。此外,孤岛页面可以通过其他来源(如其他网站)访问,搜索引擎很少将它们编入索引。
它们对 SEO 有害吗?
搜索引擎爬虫和用户很难发现此类页面,阻碍了索引和排名,从而可能会浪费创建它们所花费的精力。如果抓取的是低质量的孤岛页面而不是更有价值的页面,它们也会影响网站的抓取预算。
孤岛页面的常见原因:
由于网站迁移、未优化的网站架构、CMS 创建未被注意的 URL、过时的页面或出于促销活动等特定目的故意未链接的页面而出现。
如何找到它们?
利用 SEO 爬虫、站点地图、链接数据库、Web 分析服务、搜索分析和服务器日志文件来识别孤立页面。
如何修复它们?
- 从其他内部和相关页面链接到它们。
- 如果不需要,请删除它们。
- 或者根据它们的用途保持原样。
- 设置重定向到新目标的 URL – 到对访客仍然有价值的类似页面。
- 建议定期检查新的孤岛页面。
文章目录
孤岛页面如何影响 SEO?
孤岛页面没有指向它们的内部链接,这使得它们对搜索引擎爬虫和用户造成问题。浏览网站不会找到它们;如果以其他方式找到它们,则可能很难理解它们与域名的其他部分有何关系。对于搜索引擎来说尤其如此。
孤岛页面如何影响搜索引擎?
缺乏内部链接会对搜索引擎爬虫发现您网站上内容的方式产生负面影响。
搜索引擎通过以下方式查找新页面:
- 通过内部或外部链接访问网站上的 URL,或者
- 检查XML站点地图文件。
孤岛页面可能包含在站点地图中或包含来自其他域的链接。它们仍然会被视为孤岛页面,但它们被抓取和索引的机会会增加——这不一定是好事。
虽然 Google 可以在没有任何入站链接的情况下为站点地图中找到的 URL 编制索引,但它将很难将此类 URL 放置在站点的层次结构中,并且由于缺乏链接,它可能认为它不够有价值。站点地图中的孤岛页面是否被编入索引取决于许多因素,例如网站大小(对于较大的网站,Google 通常会留下许多页面未被抓取和编入索引,而孤岛页面的优先级可能非常低)。
因此,孤岛页面通常不会被编入索引,也不会在 Google 上排名,不会为网站带来自然流量。 如果孤岛页面由于其他因素而被编入索引,那么复杂性并不止于此。如果没有内部链接,PageRank将无法流向孤岛页面。这意味着域内其他页面从拥有高质量、相关的反向链接中获得的任何链接权限都不会转移到孤岛页面。 此外,由于没有内部链接,搜索引擎没有用于评估页面的语义或结构上下文。搜索引擎可能难以确定该页面与哪些查询相关,而不知道它在整体网站结构中的位置。 如果你有低质量的孤岛页面,并且它们的抓取在robots.txt文件中不受限制,或者它们的索引没有被noindex标签阻止,搜索引擎可能会浪费抓取预算来抓取它们。如果有一个可能遇到抓取预算问题的大型网站,这尤其有害。 在极少数情况下,低质量的孤岛页面还可能导致索引膨胀,当搜索引擎以不受控制的方式为域上的页面编制索引,为它可以找到的任何内容(包括单薄内容或重复内容)编制索引时,就会发生这种情况。 而且,更糟糕的是,如果搜索引擎确定该页面的价值不足以被索引,但你将其设置为可索引,则可能会阻止它们将你网站上的其他页面编入索引。那是因为这些低质量的页面可能会对您网站质量的总体概念产生负面影响。 请记住,如果一个页面只有一个内部链接,它就不再被视为孤岛页面。但是,如果一个页面只有一个链接并且它对你的网站至关重要,请考虑构建更多链接以加强它在网站层次结构中的位置。这样,还可以防止在删除唯一链接时页面意外成为孤立的页面。
孤岛页面对用户有何影响?
孤岛页面对用户来说也是个问题。
如果你的孤岛页面包含高质量的内容,这些内容应该为你的网站带来大量流量并带来转化,那么如果它们不包含在你的网站结构中,用户将很难找到它们。这也会导致浪费专门用于在此类页面上创建内容的时间和资源。 如果孤岛页面被故意不链接到,但用户仍然可以找到,那就不同了。登陆这些页面的访问者可能会遇到过时或不相关的内容,从而导致用户体验不佳。
孤岛页面的形成类型
孤立页的常见原因包括:
- 网站迁移 — 例如,当某些旧页面未包含在新的主导航中并且未重定向到新的目标页面时, 未优化的网站架构,由于没有网站架构策略,一些页面被取消链接。网站上也可能有一些机制不会自动在导航中包含新类型的页面。
- 一个 CMS 创建您不知道的其他 URL,
- 页面变得过时或不相关,指向它们的链接被删除,但页面仍处于发布状态 – 这种情况可能发生在缺货产品中,
- 故意不添加指向某些页面的链接 – 例如,促销或付费活动的登录页面。
其中许多是由于缺乏连贯的通用流程来执行站点迁移、将站点从暂存环境移动到生产环境、对站点进行重大更改等。
如果您在进行网站迁移方面遇到困难,请考虑访问我们的网站迁移服务。
因为孤岛页面存在的原因有很多,所以解决它们不仅仅是添加指向这些页面的链接。 并非所有页面都应该有指向它们的链接。添加链接意味着您积极希望搜索引擎和用户查看这些页面。
将它们排除在网站结构之外是向搜索引擎表明它们对你没有价值的信号之一。这与其他方面相结合,例如限制它们在 robots.txt 中的抓取或使用 noindex 标签使它们无法索引,将使它们远离 Google 的索引。
如何查找孤岛页面
修复任何东西之前的第一步是找到您的孤岛页面。 通常,查找网站上所有页面的好方法是使用 SEO 爬虫,但在这种情况下,爬虫可能还不够。这就是孤岛页面的问题——爬虫不会通过跟踪网站上的链接来找到它们。
可用于查找网站上孤岛页面的数据源包括:
- 可能拥有的站点地图或其他 URL 列表。
- 链接数据库(如 Ahrefs.com),用于查找指向您在其他网站上的页面的链接。
- Web 分析服务,例如 Google Analytics。
- 搜索分析,如 Google Search Console。
- 服务器日志文件。
一些工具会合并这些数据源。例如,Ahrefs 的 Site Audit(网站诊断)在 Page Explorer(页面分析)中向你显示一个部分,其中包含通过反向链接和站点地图找到的孤岛页面。限制是 Ahrefs 不会显示不在站点地图中或没有外链的孤岛页面。
同样,可以通过 SEMrush 的 Site Audit(网站诊断)使用多个数据源查找孤岛页面。它为你提供两个选项:
- 查看在站点地图中找到的没有任何内部链接的页面。
- 查看 Google Analytics 中最近点击但没有内部链接的页面。
Screaming Frog 有一个关于使用其 SEO Spider 发现孤岛页面的简洁指南。他们的过程围绕分析XML站点地图以查找可抓取的页面,并使用与 Google Analytics 和 Google Search Console 的集成来提供抓取数据。 将能够查看三个数据源(站点地图、Google Analytics 和 Google Search Console)中每个数据源的孤立 URL。然后,可以使用 Orphan Pages 报表导出所有找到的孤岛页面的列表。 要访问有关网站的更全面数据,您需要更深入地研究其结构。最常见的解决方案是自行交叉引用数据集。
获取可抓取网页的列表
可以从 XML 站点地图文件中检索页面列表,因为它应该只包含可抓取和可索引的 URL。 最好的方法是使用爬网程序。
无论使用哪个爬网程序,都应仅设置为爬取可编入索引的页面。它应该跳过抓取符合以下条件的页面:
- 阻止使用 noindex 标签进行索引,
- 由于 robots.txt 指令而不可抓取。
请记住,只需抓取规范 URL,包括正确的协议(HTTP 或 HTTPS)和子域(www 或非 www)。
发现哪些页面正在被访问
获得可抓取页面列表后,需要查找用户或爬虫访问的页面。
从 Google Analytics 获取数据
Google Analytics 可以帮助你通过跟踪外部链接(包括社交媒体)或直接输入地址来查找用户或爬虫访问的页面。
在 Google Analytics 中,导航到行为 > 网站内容 > 所有页面。
然后,将查看之前访问过的所有 URL。调整日期以尽可能追溯到更远的位置。然后,导出收到的列表。
从 Google Search Console 获取数据
还可以在 Google Search Console 中找到有用的数据,最好将其与 Google Analytics 中的数据相结合。Google Search Console 可能包含有关 Google 爬虫通过内部链接以外的方式访问的 URL 的数据。 在 GSC 中,选择 Performance > Pages (性能 > 页面)。 确保 Impressions 包含在显示的数据中。更改日期范围,使其尽可能回溯到时间范围,这将向显示在所选时间范围内获得展示的所有 URL。
使用服务器日志文件
或者,可以从服务器日志分析中获取最全面的数据,而不是 Google Analytics 和 Google Search Console。日志文件包含有关谁访问了网站的信息,包括搜索引擎爬虫和用户以及他们访问了哪些页面。要使用它,需要访问服务器 — 请咨询开发人员以了解是否可能。
交叉引用数据
需要查找在 Google Analytics 和 Google Search Console 数据集中找到的页面,或者查找导出的已知页面列表中缺少的日志文件,因为这些将是您的孤岛页面。
可以在 Google 表格、Excel 或任何其他工具中比较数据集。
确定所有孤立页后,将它们导出到单独的文件或电子表格中,以进行下一部分优化。
如何分析孤岛页面
一旦你的网站上有孤岛页面列表,你需要查看发现的页面并问自己一些问题,这些问题将帮助你确定如何处理它们:
- 此页面对网站有价值吗?它是否有与推动流量或转化相关的重要目标?
- 尽管是一个孤岛页面,但这个页面是否有任何关键词的排名?
- 页面应该存在于网站的什么位置?
- 此页面是重复的还是接近重复的?是否可以将内容移动到另一个尚未孤立的相关页面?
- 此页面是否经过优化?你应该以任何方式改进它吗?
- 该页面是否有很多高质量的反向链接?
除此之外,最好考虑一下为什么这些页面首先会成为孤岛。这将帮助你在未来了解此类问题,并可能避免它们。
优化孤岛页面
一旦了解了孤岛页面的作用以及它如何帮助推动你的网站和营销目标,就可以确定对页面采取什么步骤(如果有)。
从其他内部页面链接到该页面
当你希望找到和访问孤岛页面时,因为它对网站访问者来说是必不可少的,必须从网站上的其他页面添加指向该页面的内部链接。这样,可以为搜索爬虫和用户找到页面创造机会。 需要考虑最合适的链接位置 – 可能需要考虑以下几点:
- 应该从其他主题相关的文章中添加链接吗?
- 是否需要重新构建您的网站架构来为此页面腾出空间?
- 应该重写你的任何内容以使链接更适合吗? 主导航或页脚中是否应该有指向它的链接?
- 应该选择什么锚文本来为搜索引擎和访问它的用户提供上下文?
如果你不确定如何处理这些问题,也可以联系 Nat 进行内部链接优化。
重定向页面
另一种方法是设置一个 URL 重定向到一个新位置——理想情况下,一个相关的等效页面,它仍然对访问者有帮助,并不间断地补充他们的用户旅程。 如果永久重定向页面,请使用 301 重定向来保留尽可能多的 PageRank,并正确指示迁移到搜索引擎。
遵循在 SEO 中实施重定向的最佳实践。否则,配置不当的重定向可能会导致 Google Search Console 中出现“重定向错误”问题。
删除页面
如果发现一个孤岛网页没有价值且网站不需要,并且无法重定向它,则可以将其删除。 最典型的方法是将其状态代码更改为 404。
将页面保持原样
如果页面满足不需要内部链接到页面的业务需求,请保持页面未链接。
例如,如果有一个广告活动的登陆页面,而你只想在特定时间向用户显示,则可能会出现这种情况。
定期查找新的孤岛页面
根据你网站的大小,你应该设置一个监控流程,以便在任何未来的孤岛页面有机会影响你的 SEO 之前捕获它们。
例如,可以设置定期爬网以在将来查找孤岛页面。 防止孤岛页将来出现的最佳方法是确定导致孤岛页的原因并从核心问题上解决问题。例如,如果你在网站上固定了一个机制,该机制会生成没有链接的不必要 URL,请立即修复它,以防止随着时间的推移出现更多孤立页面。 每当你发布一个新页面时,请确保链接指向它,除非你有意识地不希望该页面被链接到。如果可能,请实施自动生成内部链接的解决方案,例如类别页面和相关项目。
结束语
优化网站上的孤岛页面可以帮助你:
- 为它们和网站结构中的其他页面添加上下文,
- 使页面可抓取和可索引,使它们有更高的机会在适当的关键字上排名,
- 在网站内的更多页面之间传递PageRank。
请记住,少量的孤岛页面对于任何网站来说都是标准的,不应该被视为一个大问题。 随着获得更多的孤岛页面,问题会变得更加严重,这可能会使你错过潜在的排名、流量和转化,从而阻碍你的收入和业务成功。
优先考虑有一个定期流程来捕获任何不需要的孤岛页面并立即解决它们。