Robots.txt

Robots.txt 是网站根目录下的文本文件，指示搜索引擎爬虫哪些页面或区域允许或禁止访问。

Robots.txt 使用 User-agent、Allow 和 Disallow 规则的简单语法提供爬虫指令。它是搜索引擎机器人访问域名时首先检查的文件，是管理抓取行为和预算的关键控制点。

常见用途包括屏蔽管理页面、预发布环境、重复内容路径和消耗抓取预算但不提供 SEO 价值的资源密集型页面。但要注意，robots.txt 阻止的是抓取而非索引——如果其他页面链接到被禁止的 URL，它仍可能出现在搜索结果中。

GenGrowth 审计 robots.txt 配置，确保有价值的内容不被意外屏蔽，抓取预算被高效使用。平台根据网站结构和内容优先级生成优化的 robots.txt 规则。

让 GenGrowth 为你的产品自动处理这一切

GenGrowth 如何帮助