摘要

"这一章解决一个最现实的问题:网站做出来了,Google 看不见、抓不到、收不进索引,那前面选的关键词再好也白搭。你要做的不是“把站部署上去”,而是把它做成一个能被抓取、能被收录、结构清晰、后期可扩展的底座。做完这一章,你会有一份《上线前技术检查表》(以后每个站照抄),并且在 GSC 里能看到站点、sitemap 提交成功、索引状态可排查。"

为什么这章必须做在前面

我见过最常见的翻车现场是这样的:

  • 站点部署了,页面也发了十几篇
  • 一查 GSC:0 收录,或者收录了但全是“发现但未收录”
  • 再一看:robots 写错、canonical 乱指、JS 渲染搞得爬虫看不见正文、URL 结构像一坨浆糊

这时候你再去补救,成本比一开始做对高太多。

所以这章的核心目标就一句话:
上线第一天就把“可抓取、可收录、可理解”做到位。


URL 规划:别把路修歪了,后面怎么扩都难看

URL 这东西,短期你感觉无所谓,长期它会决定你能不能做主题集群、能不能清晰内链、能不能稳定扩页面。

我推荐你用“按页面类型分区”的方式,把站的结构先定死,后面扩展不会乱。

推荐的 URL 分区方式

页面类型 推荐 URL 结构 例子(结构示意) 这样做的好处
内容页(教程/解释) /blog/ 或 /guides/ /guides/what-is-xxx 后期内容量大也好管理
工具页(可交互) /tools/ /tools/xxx-generator 一眼知道这是工具,利于转化
对比/替代页 /compare/ 或 /alternatives/ /compare/a-vs-b 转化页集中管理,方便内链导流
模板/示例页 /templates/ 或 /examples/ /templates/xxx 适合规模化,但要控质量

这里我有个很现实的建议:
别在 URL 里塞年份、别在路径里塞太多层级。
你想加时间信息,放在内容里就行;路径太深,后面改版你会痛苦。

两个坑我提前帮你避掉

  • 坑 1:URL 经常改
    改一次就要做重定向、更新内链、重新爬取,站小还好,站大了就是灾难。
    所以:第一批页面上线前就把结构定下来。

  • 坑 2:同一类内容混在一锅
    工具页、教程页、对比页混在同一个 /post/ 里,后面你自己都分不清哪里该加什么内链,Google 也更难理解站点结构。


sitemap、robots、canonical、404、重定向:每个东西到底干啥

你不需要成为技术 SEO 专家,但这五个东西你必须分清楚,不然很容易“自废武功”。

sitemap:告诉 Google 你有哪些重要页面

要点很简单:

  • sitemap 里放你希望被收录的规范 URL
  • 不要把一堆垃圾参数页、测试页塞进去
  • 新站建议分 sitemap(比如 tools.xml、blog.xml),但一开始也可以先一个总 sitemap

常见错法:

  • sitemap 里有 404、重定向、noindex 页面
  • sitemap 提交了,但实际返回不是 200(比如被拦、被鉴权)

robots:告诉爬虫哪些可以抓,哪些不要抓

robots 的原则是:能少拦就少拦。新站最怕你一拦,把重要目录也拦没了。

常见错法:

  • 不小心写了 Disallow: /(全站不让抓)
  • 把 /tools/ 或 /blog/ 给禁了
  • 用 robots 当“隐私保护”,其实 robots 不是用来藏内容的

canonical:告诉 Google “哪个才是主版本”

canonical 的作用是解决重复:同内容多个 URL 时,告诉 Google 以哪个为准。

常见错法(很致命):

  • 所有页面 canonical 都指向首页
  • canonical 指向一个不存在或返回 404 的 URL
  • 多语言/参数页没处理,导致重复内容把权重稀释

我自己的经验是:

  • 你如果不确定,就先用“自引用 canonical”(每页指向自己规范 URL)
  • 参数页如果不想收录,就用 canonical 指向无参数版本或直接 noindex(看你的策略)

404:该 404 的就 404,别硬撑

404 不是坏事。坏的是:

  • 明明不存在了,还返回 200(软 404)
  • 乱跳到首页(用户体验差,搜索引擎也不喜欢)

你要做的是:

  • 给 404 页一个清晰提示
  • 提供返回首页、站内搜索、热门页面入口
  • 重要页面如果改 URL,用 301 重定向,不要放任 404

重定向:只做 301,别搞花活

常用就两种:

  • 301:永久迁移(你改 URL、合并页面用这个)
  • 302:临时(大多数 SEO 场景别用)

重定向链条别太长:A → B → C 这种会拖累抓取和权重传递。


上线必做:GSC 验证 + 提交 sitemap + 索引排查

这部分我建议你按“固定流程”做,以后每个站都照抄。

先把 GSC 接好(这是你的仪表盘)

你上线后第一件事不是写文章,是把站点加进 Google Search Console。

建议用域名级(Domain)方式验证(覆盖更全),常见是通过 DNS 加 TXT 记录。

提交 sitemap(让 Google 更快找到你的页面)

提交之后你要看两个结果:

  • sitemap 是否读取成功
  • sitemap 里提交的 URL 是否被发现、是否进入索引

用“URL 检查”做索引排查(别靠猜)

你至少要抽查:

  • 首页
  • 1 个工具页
  • 1 个内容页
  • 1 个对比页(如果有)

看三件事:

  • 是否可抓取
  • 是否允许索引(noindex/robots 有没有拦)
  • canonical Google 选的是不是你想要的那个

真实小案例(不指具体网站):
我曾经有个站,sitemap 正常,页面也能打开,但就是不收录。后来发现是框架默认给部分页面加了 noindex(为了防止预览环境被收录),我上线时没关掉。GSC 里一查原因很明确:被 noindex。这个坑如果不跑流程,纯靠肉眼很难发现。


内容模板最小三件套:Title、H1、Description 怎么写(不堆关键词)

你这一章不是要写出“最强文案”,而是写出可扩展、可复用的模板,后面第 3 章你才跑得快。

Title:让人一眼知道这页解决什么

建议结构:

  • 工具页:X Generator (Free Online Tool) - Brand
  • 教程页:How to X: Step-by-step Guide - Brand
  • 对比页:A vs B: Which is Better for [Use Case]? - Brand
  • 模板页:X Templates: Free Examples & Download - Brand

注意:

  • 别堆同义词,别写一长串关键词
  • Title 主要服务点击,不是服务“堆词”

H1:一句话把主题钉死

H1 不用花里胡哨,核心是:

  • 让用户确认“我来对地方了”
  • 和 Title 可以相近,但别完全复制也行

Description:写给人看的摘要,不是写给爬虫看的

Description 的作用是提高 CTR(点击率),它不是排名因素但影响流量。

我的写法很简单:

  • 先说你能给什么结果
  • 再说适用人群/场景
  • 再加一个可信点(比如支持格式、隐私、速度等)

交付物:《上线前技术检查表》(你以后每个站照抄)

你照下面这份清单跑一遍,跑完再算“上线”。

抓取与收录

  • 网站可公开访问(非登录态可看)
  • 重要目录未被 robots 禁止(尤其是 /tools/ /guides/ /compare/)
  • 每个页面返回 200(不是软 404)
  • canonical 正常(默认自引用,不乱指首页)
  • sitemap 可访问且返回 200
  • sitemap 里只包含可索引规范 URL

URL 与结构

  • URL 结构按页面类型分区(内容/工具/对比/模板)
  • URL 尽量短、少层级、不带年份
  • 站点有清晰导航(至少能到达:工具列表/内容列表/关于/联系)

GSC 与索引排查

  • GSC 验证完成

  • sitemap 提交成功

  • 抽查首页+3 个典型页面,确认:

    • 可抓取
    • 可索引
    • Google 选的 canonical 正确

基础页面与信任信号(别嫌麻烦)

  • About(你是谁,你做这个站干嘛)
  • Contact(至少一个可用联系方式)
  • Privacy Policy(工具站尤其需要,告诉用户数据怎么处理)
  • Terms(如果有账号/付费更建议有)

我说句接地气的:这些页面你不做,短期可能没事,但你要申请 Adsense、要做付费、要让人信你,迟早得补。你现在补,成本最低。


这一章做完验收的标准

你打开 GSC 能看到:

  • sitemap 是成功状态
  • 你抽查的几个页面能被抓取
  • 没有明显的 noindex/robots/canonical 错误
  • 索引问题你能定位原因(而不是“我也不知道为啥不收录”)