为什么这章必须做在前面
我见过最常见的翻车现场是这样的:
- 站点部署了,页面也发了十几篇
- 一查 GSC:0 收录,或者收录了但全是“发现但未收录”
- 再一看:robots 写错、canonical 乱指、JS 渲染搞得爬虫看不见正文、URL 结构像一坨浆糊
这时候你再去补救,成本比一开始做对高太多。
所以这章的核心目标就一句话:
上线第一天就把“可抓取、可收录、可理解”做到位。
URL 规划:别把路修歪了,后面怎么扩都难看
URL 这东西,短期你感觉无所谓,长期它会决定你能不能做主题集群、能不能清晰内链、能不能稳定扩页面。
我推荐你用“按页面类型分区”的方式,把站的结构先定死,后面扩展不会乱。
推荐的 URL 分区方式
| 页面类型 | 推荐 URL 结构 | 例子(结构示意) | 这样做的好处 |
|---|---|---|---|
| 内容页(教程/解释) | /blog/ 或 /guides/ | /guides/what-is-xxx | 后期内容量大也好管理 |
| 工具页(可交互) | /tools/ | /tools/xxx-generator | 一眼知道这是工具,利于转化 |
| 对比/替代页 | /compare/ 或 /alternatives/ | /compare/a-vs-b | 转化页集中管理,方便内链导流 |
| 模板/示例页 | /templates/ 或 /examples/ | /templates/xxx | 适合规模化,但要控质量 |
这里我有个很现实的建议:
别在 URL 里塞年份、别在路径里塞太多层级。
你想加时间信息,放在内容里就行;路径太深,后面改版你会痛苦。
两个坑我提前帮你避掉
-
坑 1:URL 经常改
改一次就要做重定向、更新内链、重新爬取,站小还好,站大了就是灾难。
所以:第一批页面上线前就把结构定下来。 -
坑 2:同一类内容混在一锅
工具页、教程页、对比页混在同一个 /post/ 里,后面你自己都分不清哪里该加什么内链,Google 也更难理解站点结构。
sitemap、robots、canonical、404、重定向:每个东西到底干啥
你不需要成为技术 SEO 专家,但这五个东西你必须分清楚,不然很容易“自废武功”。
sitemap:告诉 Google 你有哪些重要页面
要点很简单:
- sitemap 里放你希望被收录的规范 URL
- 不要把一堆垃圾参数页、测试页塞进去
- 新站建议分 sitemap(比如 tools.xml、blog.xml),但一开始也可以先一个总 sitemap
常见错法:
- sitemap 里有 404、重定向、noindex 页面
- sitemap 提交了,但实际返回不是 200(比如被拦、被鉴权)
robots:告诉爬虫哪些可以抓,哪些不要抓
robots 的原则是:能少拦就少拦。新站最怕你一拦,把重要目录也拦没了。
常见错法:
- 不小心写了
Disallow: /(全站不让抓) - 把 /tools/ 或 /blog/ 给禁了
- 用 robots 当“隐私保护”,其实 robots 不是用来藏内容的
canonical:告诉 Google “哪个才是主版本”
canonical 的作用是解决重复:同内容多个 URL 时,告诉 Google 以哪个为准。
常见错法(很致命):
- 所有页面 canonical 都指向首页
- canonical 指向一个不存在或返回 404 的 URL
- 多语言/参数页没处理,导致重复内容把权重稀释
我自己的经验是:
- 你如果不确定,就先用“自引用 canonical”(每页指向自己规范 URL)
- 参数页如果不想收录,就用 canonical 指向无参数版本或直接 noindex(看你的策略)
404:该 404 的就 404,别硬撑
404 不是坏事。坏的是:
- 明明不存在了,还返回 200(软 404)
- 乱跳到首页(用户体验差,搜索引擎也不喜欢)
你要做的是:
- 给 404 页一个清晰提示
- 提供返回首页、站内搜索、热门页面入口
- 重要页面如果改 URL,用 301 重定向,不要放任 404
重定向:只做 301,别搞花活
常用就两种:
- 301:永久迁移(你改 URL、合并页面用这个)
- 302:临时(大多数 SEO 场景别用)
重定向链条别太长:A → B → C 这种会拖累抓取和权重传递。
上线必做:GSC 验证 + 提交 sitemap + 索引排查
这部分我建议你按“固定流程”做,以后每个站都照抄。
先把 GSC 接好(这是你的仪表盘)
你上线后第一件事不是写文章,是把站点加进 Google Search Console。
建议用域名级(Domain)方式验证(覆盖更全),常见是通过 DNS 加 TXT 记录。
提交 sitemap(让 Google 更快找到你的页面)
提交之后你要看两个结果:
- sitemap 是否读取成功
- sitemap 里提交的 URL 是否被发现、是否进入索引
用“URL 检查”做索引排查(别靠猜)
你至少要抽查:
- 首页
- 1 个工具页
- 1 个内容页
- 1 个对比页(如果有)
看三件事:
- 是否可抓取
- 是否允许索引(noindex/robots 有没有拦)
- canonical Google 选的是不是你想要的那个
真实小案例(不指具体网站):
我曾经有个站,sitemap 正常,页面也能打开,但就是不收录。后来发现是框架默认给部分页面加了 noindex(为了防止预览环境被收录),我上线时没关掉。GSC 里一查原因很明确:被 noindex。这个坑如果不跑流程,纯靠肉眼很难发现。
内容模板最小三件套:Title、H1、Description 怎么写(不堆关键词)
你这一章不是要写出“最强文案”,而是写出可扩展、可复用的模板,后面第 3 章你才跑得快。
Title:让人一眼知道这页解决什么
建议结构:
- 工具页:
X Generator (Free Online Tool) - Brand - 教程页:
How to X: Step-by-step Guide - Brand - 对比页:
A vs B: Which is Better for [Use Case]? - Brand - 模板页:
X Templates: Free Examples & Download - Brand
注意:
- 别堆同义词,别写一长串关键词
- Title 主要服务点击,不是服务“堆词”
H1:一句话把主题钉死
H1 不用花里胡哨,核心是:
- 让用户确认“我来对地方了”
- 和 Title 可以相近,但别完全复制也行
Description:写给人看的摘要,不是写给爬虫看的
Description 的作用是提高 CTR(点击率),它不是排名因素但影响流量。
我的写法很简单:
- 先说你能给什么结果
- 再说适用人群/场景
- 再加一个可信点(比如支持格式、隐私、速度等)
交付物:《上线前技术检查表》(你以后每个站照抄)
你照下面这份清单跑一遍,跑完再算“上线”。
抓取与收录
- 网站可公开访问(非登录态可看)
- 重要目录未被 robots 禁止(尤其是 /tools/ /guides/ /compare/)
- 每个页面返回 200(不是软 404)
- canonical 正常(默认自引用,不乱指首页)
- sitemap 可访问且返回 200
- sitemap 里只包含可索引规范 URL
URL 与结构
- URL 结构按页面类型分区(内容/工具/对比/模板)
- URL 尽量短、少层级、不带年份
- 站点有清晰导航(至少能到达:工具列表/内容列表/关于/联系)
GSC 与索引排查
-
GSC 验证完成
-
sitemap 提交成功
-
抽查首页+3 个典型页面,确认:
- 可抓取
- 可索引
- Google 选的 canonical 正确
基础页面与信任信号(别嫌麻烦)
- About(你是谁,你做这个站干嘛)
- Contact(至少一个可用联系方式)
- Privacy Policy(工具站尤其需要,告诉用户数据怎么处理)
- Terms(如果有账号/付费更建议有)
我说句接地气的:这些页面你不做,短期可能没事,但你要申请 Adsense、要做付费、要让人信你,迟早得补。你现在补,成本最低。
这一章做完验收的标准
你打开 GSC 能看到:
- sitemap 是成功状态
- 你抽查的几个页面能被抓取
- 没有明显的 noindex/robots/canonical 错误
- 索引问题你能定位原因(而不是“我也不知道为啥不收录”)