Robots.txt网站地图生成器
快速创建和配置网站爬虫规则,优化搜索引擎访问
Robots.txt配置
生成结果
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
使用指南
基本用法
配置爬虫规则,点击"生成Robots.txt"按钮即可生成标准的robots.txt文件内容。
基本设置:
设置User-agent和访问规则
添加规则:
Allow或Disallow特定目录
规则格式说明
Robots.txt文件包含以下主要指令:
- User-agent: 指定搜索引擎爬虫,*表示所有爬虫
- Allow: 允许爬虫访问的目录或文件
- Disallow: 禁止爬虫访问的目录或文件
- Sitemap: 指定网站地图的URL
注意事项
- robots.txt文件应放置在网站根目录
- 不同User-agent之间需要用空行分隔
- 路径规则区分大小写
- 爬虫可能会忽略robots.txt规则,这不是安全措施
- 使用/表示网站根目录
常见规则示例
禁止所有爬虫访问整个网站:
User-agent: * Disallow: /
禁止所有爬虫访问特定目录:
User-agent: * Disallow: /private/ Disallow: /admin/ Disallow: /includes/
仅允许Google访问:
User-agent: Googlebot Allow: / User-agent: * Disallow: /
禁止特定文件类型:
User-agent: * Disallow: /*.pdf$ Disallow: /*.doc$
主要搜索引擎爬虫
搜索引擎 | 爬虫名称 |
---|---|
Googlebot | |
百度 | Baiduspider |
必应 | Bingbot |
搜狗 | Sogou web spider |
360搜索 | 360Spider |
神马搜索 | YisouSpider |
相关工具
使用提示
- robots.txt文件使用UTF-8编码保存,避免特殊字符产生问题。
- 规则路径必须以/开头,代表网站根目录。例如:/admin/ 表示网站根目录下的admin目录。
- 禁止访问所有内容使用:Disallow: /,允许访问所有内容使用:Disallow:(空值)或Allow: /。
- Robots.txt不能保证网站内容的安全性,对于敏感内容应采取其他安全措施。
- 新创建或修改robots.txt后,可以使用搜索引擎的网站管理工具测试其有效性。