Robots.txt网站地图生成器

快速创建和配置网站爬虫规则,优化搜索引擎访问

Robots.txt配置

生成结果

User-agent: * Disallow: /admin/ Sitemap: https://example.com/sitemap.xml

使用指南

基本用法

配置爬虫规则,点击"生成Robots.txt"按钮即可生成标准的robots.txt文件内容。

基本设置: 设置User-agent和访问规则
添加规则: Allow或Disallow特定目录
规则格式说明

Robots.txt文件包含以下主要指令:

  • User-agent: 指定搜索引擎爬虫,*表示所有爬虫
  • Allow: 允许爬虫访问的目录或文件
  • Disallow: 禁止爬虫访问的目录或文件
  • Sitemap: 指定网站地图的URL
注意事项
  • robots.txt文件应放置在网站根目录
  • 不同User-agent之间需要用空行分隔
  • 路径规则区分大小写
  • 爬虫可能会忽略robots.txt规则,这不是安全措施
  • 使用/表示网站根目录
常见规则示例

禁止所有爬虫访问整个网站:

User-agent: *
Disallow: /

禁止所有爬虫访问特定目录:

User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /includes/

仅允许Google访问:

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

禁止特定文件类型:

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$
主要搜索引擎爬虫
搜索引擎 爬虫名称
Google Googlebot
百度 Baiduspider
必应 Bingbot
搜狗 Sogou web spider
360搜索 360Spider
神马搜索 YisouSpider
使用提示
  • robots.txt文件使用UTF-8编码保存,避免特殊字符产生问题。
  • 规则路径必须以/开头,代表网站根目录。例如:/admin/ 表示网站根目录下的admin目录。
  • 禁止访问所有内容使用:Disallow: /,允许访问所有内容使用:Disallow:(空值)或Allow: /。
  • Robots.txt不能保证网站内容的安全性,对于敏感内容应采取其他安全措施。
  • 新创建或修改robots.txt后,可以使用搜索引擎的网站管理工具测试其有效性。