网站结构与索引 - SEO 基础入门：程序员的出海流量实战

网站结构的重要性

良好的网站结构帮助：

搜索引擎高效爬取和索引
用户轻松找到内容
权重有效传递

XML Sitemap

什么是 XML Sitemap？

XML Sitemap 是一个列出网站所有重要页面的文件，帮助搜索引擎发现和索引你的内容。

Sitemap 格式

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://example.com/</loc>
    <lastmod>2025-01-18</lastmod>
    <changefreq>weekly</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://example.com/blog/seo-guide</loc>
    <lastmod>2025-01-17</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
</urlset>

Sitemap 元素说明

元素	必需	说明
loc	是	页面 URL
lastmod	否	最后修改日期
changefreq	否	更新频率（Google 通常忽略）
priority	否	页面优先级（Google 通常忽略）

Sitemap 最佳实践

1. 只包含重要页面

✅ 应该包含：
- 有价值的内容页面
- 产品页面
- 分类页面

❌ 不应包含：
- 重复内容页面
- 带有 noindex 的页面
- 404 页面
- 带参数的重复 URL

2. 保持更新

当页面更新时，更新 sitemap 中的 lastmod。

3. 分割大型 Sitemap

单个 sitemap 限制：

最多 50,000 个 URL
最大 50MB（未压缩）

大型网站使用 sitemap 索引：

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.com/sitemap-posts.xml</loc>
    <lastmod>2025-01-18</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.com/sitemap-products.xml</loc>
    <lastmod>2025-01-17</lastmod>
  </sitemap>
</sitemapindex>

4. 提交到 Search Console

登录 Google Search Console
进入"Sitemap"部分
输入 sitemap URL
点击提交

动态生成 Sitemap

大多数 CMS 和框架支持自动生成：

WordPress：Yoast SEO、Rank Math
Next.js：next-sitemap 插件
Gatsby：gatsby-plugin-sitemap

Robots.txt

什么是 Robots.txt？

Robots.txt 是一个告诉搜索引擎爬虫哪些页面可以抓取、哪些不可以的文件。

位置：https://example.com/robots.txt

基本语法

# 允许所有爬虫访问所有内容
User-agent: *
Allow: /

# 禁止所有爬虫访问 /private/
User-agent: *
Disallow: /private/

# 禁止特定爬虫
User-agent: BadBot
Disallow: /

# 声明 Sitemap 位置
Sitemap: https://example.com/sitemap.xml

常用指令

指令	说明
User-agent	指定规则适用的爬虫
Allow	允许抓取的路径
Disallow	禁止抓取的路径
Sitemap	Sitemap 文件位置

Robots.txt 示例

# 标准配置
User-agent: *
Disallow: /admin/
Disallow: /private/
Disallow: /api/
Disallow: /search?
Disallow: /*?sort=
Disallow: /*?filter=

# 允许所有图片
Allow: /images/

# Sitemap
Sitemap: https://example.com/sitemap.xml

重要注意事项

Robots.txt 不是安全措施

⚠️ Robots.txt 是"请求"而非"命令"
- 礼貌的爬虫会遵守
- 恶意爬虫会忽略
- 页面仍然可以访问

如果需要保护敏感内容：
- 使用密码保护
- 服务器端访问控制
- 不要仅依赖 robots.txt

Disallow 不等于 Noindex

Disallow: /page/
→ 爬虫不会抓取
→ 但如果有外链指向，页面可能仍被索引（显示 URL，无描述）

如果要完全阻止索引，需要用 noindex 标签

测试 Robots.txt

使用 Google Search Console 的 Robots.txt 测试工具验证配置。

索引控制

Meta Robots 标签

在 HTML 中控制单个页面的索引行为：

<!-- 允许索引和跟踪链接（默认） -->
<meta name="robots" content="index, follow">

<!-- 不索引但跟踪链接 -->
<meta name="robots" content="noindex, follow">

<!-- 索引但不跟踪链接 -->
<meta name="robots" content="index, nofollow">

<!-- 不索引也不跟踪 -->
<meta name="robots" content="noindex, nofollow">

常用指令

指令	说明
index	允许索引（默认）
noindex	不索引此页面
follow	跟踪页面上的链接（默认）
nofollow	不跟踪链接
noarchive	不显示缓存版本
nosnippet	不显示摘要

何时使用 Noindex

应该用 noindex 的页面：
- 感谢页面
- 管理后台
- 重复内容页面
- 低价值页面（搜索结果、筛选页）
- 隐私政策（如果不想被搜索）

X-Robots-Tag（HTTP 头）

对于非 HTML 资源（PDF、图片），使用 HTTP 头：

X-Robots-Tag: noindex

规范化（Canonical）

什么是规范化？

当多个 URL 显示相同或相似内容时，canonical 标签告诉搜索引擎哪个是"官方"版本。

问题场景

以下 URL 显示相同内容：
https://example.com/page
https://example.com/page/
https://example.com/page?ref=twitter
http://example.com/page
https://www.example.com/page

使用 Canonical 标签

<head>
  <link rel="canonical" href="https://example.com/page">
</head>

所有版本都应该指向同一个规范 URL。

Canonical 最佳实践

每个页面都要有 canonical
自引用 canonical：页面指向自己也是有效的
使用绝对 URL：不要用相对路径
保持一致：所有重复页面指向同一个
确保规范页面可访问：不能是 404 或 noindex

常见规范化问题

问题	解决方案
HTTP vs HTTPS	统一使用 HTTPS，设置重定向
www vs 非 www	选择一个，设置重定向
尾部斜杠	保持一致，使用 canonical
参数变体	使用 canonical 指向无参数版本
分页	每页有自己的 canonical

重定向

301 vs 302

类型	含义	用途	权重传递
301	永久重定向	URL 永久更改	是
302	临时重定向	临时跳转	有限

何时使用 301

删除页面并有替代页面
URL 结构更改
域名更换
HTTP 到 HTTPS
合并重复内容

301 实现方式

# Nginx
location /old-page {
    return 301 /new-page;
}

# 或使用 rewrite
rewrite ^/old-url$ /new-url permanent;

# Apache .htaccess
Redirect 301 /old-page /new-page

重定向最佳实践

避免重定向链

❌ A → B → C → D
✅ A → D, B → D, C → D

避免重定向循环
```
❌ A → B → A
```
重定向到相关页面
更新内部链接：直接链接到新 URL
保留重要重定向：至少保留 1 年

网站结构检查清单

Sitemap

有 XML Sitemap
Sitemap 已提交到 Search Console
Sitemap 保持更新
只包含可索引的页面

Robots.txt

有 robots.txt 文件
没有误屏蔽重要页面
包含 Sitemap 声明
已用工具验证

索引控制

重要页面可被索引
低价值页面使用 noindex
每个页面有 canonical 标签
没有规范化冲突

重定向

旧 URL 设置了 301 重定向
没有重定向链
没有重定向循环
HTTPS 重定向正确

小结

网站结构与索引优化要点：

XML Sitemap：帮助搜索引擎发现页面
Robots.txt：控制爬虫访问
Meta Robots：控制单页索引
Canonical：处理重复内容
重定向：正确处理 URL 变更

这些是技术 SEO 的基础，确保搜索引擎能正确访问和理解你的网站。

下一节，我们将学习结构化数据。