索引 SEO 101：如何为您的网站创建索引策略

搜索引擎不应将网站上的所有页面编入索引。

即使你认为你网站上的一切都很棒，但大多数网站都有大量根本不属于搜索结果的页面。如果你让搜索引擎索引这些页面，你可能会面临负面后果。

这就是为什么你需要为网站制定索引策略。其关键要素是：

决定希望搜索引擎索引哪些页面并使用适当的方法来最大限度地提高它们被索引的机会，
决定哪些页面不应该被编入索引，以及如何在不限制潜在搜索可见性的情况下将它们从搜索中排除。

决定哪些页面应该或不应该被索引是很困难的。你可能会找到一些针对特定页面的指南和提示，但往往还是要靠自己。

选择适当的方法将这些页面从搜索结果中排除需要更多的考虑。应该使用 noindex 标签或 canonical 标签，在 robots.txt 中阻止页面，还是使用永久重定向？

本文将概述决策过程，以便你为自己的网站创建自定义索引策略。

虽然可能会遇到不符合我建议的逻辑的边缘情况，但下面下划线的过程将在绝大多数情况下为你提供出色的结果。

为什么有些页面不应该被编入索引

不希望搜索引擎索引您的所有页面有两个主要原因：

它有助于优化抓取预算，
许多可编入索引的低质量内容可能会损害搜索引擎查看网站的方式。

优化抓取预算

搜索引擎机器人可以在给定网站上抓取有限数量的页面。互联网是无限大的，抓取所有内容将超过搜索引擎拥有的资源。

搜索引擎机器人在抓取网站上花费的时间和资源称为抓取预算。 如果你把抓取预算浪费在低质量的页面上，那么实际上应该索引的最有价值的页面可能没有足够的预算。

通过花时间决定要索引哪些页面，你可以优化抓取预算并确保搜索引擎机器人不会将资源浪费在不太重要的页面上。

不要让低质量的内容损害网站

如果搜索引擎意识到你有很多低质量的内容，他们可能会决定经常停止抓取网站。

这是一个恶性循环：

Google 抓取低质量的页面。
Google 会停止经常访问该网站。
许多页面从未被 Google 抓取过，即使它们是高质量的页面。
有些有价值的页面没有被编入索引。

这显示了排名、抓取和索引编制是如何相互关联的。

控制索引的方法

可以使用多种方法来控制页面的索引，包括：

Noindex robots元标签
robots.txt中的disallow 指令
canonical 标签
永久重定向
XML 站点地图

上述每种方法都有自己的用途和功能。

Noindex robots 元标记

				
					<meta name="robots" content="noindex">

如果你将上述指令添加到页面的 HTML <head> 部分，搜索引擎机器人就会明白它们不应该索引它。它将阻止该页面出现在搜索引擎的结果页面上。

如果你不希望该页面被索引，但你仍然希望搜索引擎机器人抓取你的页面，例如，点击该页面上的链接，你应该使用这个标签。

robots.txt中的disallow 指令

robots.txt 文件中的 disallow 指令允许阻止搜索引擎访问该页面。如果搜索引擎机器人遵守该指令，它不会抓取不允许的页面，因此不会将它们编入索引。

由于 disallow 指令限制了爬网，因此此方法可以节省爬网预算。

注意：disallow 指令不是阻止访问敏感页面的正确方法。恶意机器人会忽略 robots.txt 文件，并且仍然可以访问内容。如果想确保某些页面不是所有机器人都可以访问的，最好使用密码阻止它们。

Canonical 标签

规范标签是一个 HTML 元素，它告诉搜索引擎哪些重复的 URL 是原始 URL。
使用 canonical 标签，可以准确指定要索引并显示在搜索结果中的页面版本。如果没有 canonical 标签，你就无法控制页面的哪个版本被索引。
搜索引擎机器人仍然需要抓取页面才能发现规范标签，因此使用它不会帮助你节省抓取预算。

请记住，谷歌可能会忽略创建不当的规范标签。如果 Google 忽略了你的规范标签，可以通过 GSC 中的 “重复，Google 选择了与用户不同的规范 ”状态来发现。

永久重定向

301 重定向是指示永久重定向的 HTTP 响应代码。它指定请求的页面具有新位置，并且旧页面已从服务器中删除。

使用 301 重定向时，用户和搜索引擎机器人不会访问旧的 URL。相反，流量和排名信号将被重定向到新页面。你将在 Google Search Console 中看到 “页面重定向 ”状态。 使用 301 重定向是节省抓取预算的好方法。 正在减少网站上可用的页面数量，因此搜索引擎机器人可以抓取的内容更少。但是，请注意创建重定向链或循环，因为它们实际上可能会导致抓取预算问题并导致 Google Search Console 中出现“重定向错误”状态。 请记住，应该只重定向到相关页面。 重定向到不相关的页面可能会使用户感到困惑。此外，搜索引擎机器人可能不会遵循重定向并将页面视为软 404。

XML 站点地图

XML 站点地图是一个文本文件，其中列出了希望搜索引擎索引的 URL。其目的是帮助搜索引擎机器人轻松找到关心的页面。

一个经过充分优化的站点地图不仅可以将搜索引擎引导至有价值的页面，还可以节省抓取预算。 没有它，机器人需要抓取整个网站以发现有价值的内容。

这就是为什么站点地图应该只列出你网站上的可索引 URL。 这意味着您放入站点地图的页面应该是：

Canonical 规范
未被 noindex robots 元标记阻止
未被 robots.txt 中的 disallow 指令阻止，并且
使用 200 状态代码进行响应。

如何决定哪些页面应该或不应该被编入索引

基本的问题是：这个页面对任何人都有价值吗？这个问题有三种可能的答案：

该页面对搜索引擎用户（和搜索引擎）很有价值，
该页面对搜索引擎很有价值，
该页面对任何人都没有价值。

最重要的是，只有对用户有价值的页面才应该被索引。 但是，即使在该类别中，也有一些类型的页面不应该被编入索引。

对用户有价值的页面

如果一个页面为搜索引擎用户提供搜索的答案或允许他们导航到答案，那么它对搜索引擎用户来说就是有价值的。

在大多数情况下，如果一个页面对用户有价值，就应该将其编入索引。但是，仍然可能存在页面对用户有价值但不应编入索引的情况。

对用户有价值的网页，应该被编入索引

如果满足以下条件，则应将页面编入索引：

它提供高质量、独特的内容，带来流量，
它是不同高质量页面的备用语言版本（如果适用）。

高质量、独特的内容

网站带来流量的高质量、独特的页面绝对应该出现在站点地图上。确保它们没有被 robots.txt 阻止，并且它们没有 noindex 元标签。请特别注意对业务最有价值的页面。他们通常是带来最多转化率的人。页面如下：

主页
关于我们和联系页面
包含有关提供的服务/产品的分类页
展示专业知识的博客文章
包含特定商品（如电子商务产品）的页面

应始终可编入索引，并且应该定期监视其索引。

备用语言版本

搜索引擎不会将翻译的内容视为重复内容。 事实上，搜索引擎想知道是否有多种语言版本可用来向不同国家/地区的用户展示最合适的版本。如果你有页面的替代语言版本，你应该使用 hreflang 标签指定它，并将该页面放在你的站点地图中。可以在站点地图和/或 HTML 中指定 hreflang 标签。从搜索引擎的角度来看，站点地图中使用的 Hreflang 标签非常好。但是，它们可能很难使用 SEO 工具或浏览器插件进行验证。因此，推荐的添加标签的方式是在 HTML 代码和站点地图中，或者只在 HTML 代码中。

请记住，每个页面都需要指定所有语言版本，包括它自己的语言。

对用户有价值的网页，不应编入索引

在某些情况下，网页对用户来说可能很有价值，但仍不应将其编入索引。这些情况包括：

重复或接近重复的内容，
没有搜索需求的页面。

与其他页面重复或接近重复

在以下情况下，搜索引擎漫游器可能会认为页面重复或接近重复：

两个或多个不同的 URL 指向同一页面，
两个不同的页面具有非常相似的内容。

重复内容最常见的示例之一是电子商务网站上过滤的类别页面。用户可以应用过滤器来缩小产品范围并更快地找到他们正在寻找的产品。不幸的是，每个应用的过滤器都可能会将参数保存在 URL 中，从而创建多个指向同一页面的 URL。例如，store.com/dresses/item 和 store.com/dresses/item?color=yellow 可能指向相同的内容。

内容重复或接近重复的其他原因包括：

移动版和桌面版具有不同的 URL，
拥有您网站的印刷版本，或
错误地创建重复内容。

包含可索引的重复内容的风险包括：

无法控制哪个版本可能显示在搜索结果中。例如，如果有可用的印刷版和常规版，搜索引擎可能会在搜索中显示印刷版。

在多个 URL 之间划分排名信号。
大幅增加搜索引擎需要抓取的 URL 数量。
如果搜索引擎觉得要操纵排名，则降低你在 SERP 中的位置（一种罕见的后果）。

为避免重复内容的负面后果，应该致力于整合它。主要方法包括规范标签和 301 重定向。

如果所有用户可以使用所有页面，那么 Canonical 标签是最佳选择。

应在网站上保持可用的重复内容示例是改善用户体验的内容。例如，当用户在电子商务网站上过滤产品时，重定向它们可能会因各种原因（例如面包屑的突然变化）而造成混淆。

此外，当为不同设备提供不同的版本时，可能需要在网站上包含重复的内容。使用 301 重定向，网站上只有一个页面保持可用。其余的将自动重定向。

301 重定向可能会有所帮助，例如，当你有两篇非常相似的博客文章，并决定只保留一篇应该在你的网站上时。301 状态代码会将流量和排名信号重定向到您选择的文章。这是优化抓取预算的绝佳方法，但只有在要删除重复页面时才能使用它。

请记住，每当使用永久重定向时，都要在站点地图中进行更改。应该只将响应 200 个状态代码的页面放在站点地图中。因此，如果使用 301 重定向来整合内容，则只有保留在网站上的版本应保留在站点地图中。

没有搜索需求的页面

网站上可能有一些没有任何搜索需求的优质内容。换句话说，没有人在寻找它。当撰写有关小众爱好的文章或拥有为用户写“谢谢”等信息的页面时，可能会发生这种情况。

这些页面可能不会带来流量或转化。也许你想摒弃它们，因为它们补充了用户的旅程，但不希望它们成为用户在搜索结果上首先看到的内容。

如果你认为用户不应该在搜索结果中看到某个特定的页面，或者该页面没有带来任何流量，则无需将其编入索引。这样，搜索引擎机器人可以专注于真正带来流量的页面。

要阻止对没有搜索需求的页面进行索引，请使用 noindex meta robots 标记。机器人不会将其编入索引，但它们仍然会抓取它并跟踪该页面上的链接，从而为他们提供有关网站的更多上下文。

仅对搜索引擎有价值的页面

并非所有页面都旨在帮助用户。其中一些帮助搜索引擎了解网站并发现链接。

看看这个维基百科分类索引页面：

它列出了所有中文分类页，使搜索引擎可以轻松找到所有链接。

一方面，像这样的页面可能会让用户感到困惑并阻止他们留在网站上。它们对他们没有价值，因此它们不应该出现在搜索结果中，也不应该被索引。

另一方面，它们对搜索引擎很有用——它们可以促进您的内部链接。

这就是为什么最好的解决方案是实施 noindex 元标签，将这些页面排除在站点地图之外，并允许它们在robots.txt中抓取。它们不会被索引，但机器人会抓取它们。

页面对任何人都没有价值

有些页面对用户或搜索引擎没有价值。

其中一些法律要求存在于网站上，例如隐私政策，但是，老实说 – 没有人在搜索这种类型的内容。当然，你不能删除它们，但不需要为它们编制索引，因为没有人想找到它们。在某些情况下，他们的排名可能会超过更有价值的内容并 “窃取” 流量。

没有价值的页面还包含薄弱、低质量的内容。应该特别注意它们，因为它们会损害用户和搜索引擎对网站整体质量的看法。

最重要的是，需要确保没有价值的页面具有 noindex meta robots 标签。 如果不阻止他们的索引，他们可能会损害排名并阻止用户访问网站。

此外，如果想优化抓取预算，请在 robots.txt 文件中阻止这些页面并删除指向它们的内部链接。这将节省更有价值的页面的抓取预算。

结束语

了解哪些页面应该和不应该被索引并将其传达给搜索引擎机器人对于创建合理的索引策略至关重要。

它将最大限度地提高网站被正确抓取和索引的机会，并确保用户可以在搜索结果中找到所有有价值的内容。

以下是在创建索引策略时需要牢记的关键要点：

在决定是否应该将页面编入索引时，请问问自己它是否具有对用户有价值的独特内容。 独特、有价值的页面不应被 noindex 元标签阻止索引，也不应使用 robots.txt disallow 指令阻止被抓取。
如果低质量内容是可索引的，它可能会对排名产生负面影响，并使有价值的页面面临未被索引的风险。
如果网站上有重复或接近重复的内容，应该用规范标签或 301 重定向来整合它。
如果页面没有搜索需求，则不必将其编入索引 – 使用 meta robots 标签中的 noindex。
应该使用 noindex 元机器人标签阻止包含仅对搜索引擎有价值的内容或链接的页面被索引，但不要阻止它们在 robots.txt 中被抓取。
如果用户和搜索引擎都无法从访问给定页面中受益，则应在 meta robots 标签中将其设置为 noindex。
如果同一网页有多个备用语言版本，请使它们保持可索引状态。 使用 hreflang 标签可帮助搜索引擎了解这些页面之间的关系。