Robots.txt网站地图生成器

快速创建和配置网站爬虫规则，优化搜索引擎访问

Robots.txt配置

添加Sitemap链接

Sitemap URL

User-agent

爬取规则

生成结果

User-agent: * Disallow: /admin/ Sitemap: https://example.com/sitemap.xml

使用指南

基本用法

配置爬虫规则，点击"生成Robots.txt"按钮即可生成标准的robots.txt文件内容。

基本设置：设置User-agent和访问规则

添加规则： Allow或Disallow特定目录

规则格式说明

Robots.txt文件包含以下主要指令：

User-agent: 指定搜索引擎爬虫，*表示所有爬虫
Allow: 允许爬虫访问的目录或文件
Disallow: 禁止爬虫访问的目录或文件
Sitemap: 指定网站地图的URL

注意事项

robots.txt文件应放置在网站根目录
不同User-agent之间需要用空行分隔
路径规则区分大小写
爬虫可能会忽略robots.txt规则，这不是安全措施
使用/表示网站根目录

常见规则示例

禁止所有爬虫访问整个网站：

User-agent: *
Disallow: /

禁止所有爬虫访问特定目录：

User-agent: *
Disallow: /private/
Disallow: /admin/
Disallow: /includes/

仅允许Google访问：

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

禁止特定文件类型：

User-agent: *
Disallow: /*.pdf$
Disallow: /*.doc$

主要搜索引擎爬虫

搜索引擎	爬虫名称
Google	Googlebot
百度	Baiduspider
必应	Bingbot
搜狗	Sogou web spider
360搜索	360Spider
神马搜索	YisouSpider

相关工具

Sitemap生成器网站日志分析正则表达式测试 HTML格式化

使用提示

robots.txt文件使用UTF-8编码保存，避免特殊字符产生问题。
规则路径必须以/开头，代表网站根目录。例如：/admin/ 表示网站根目录下的admin目录。
禁止访问所有内容使用：Disallow: /，允许访问所有内容使用：Disallow:（空值）或Allow: /。
Robots.txt不能保证网站内容的安全性，对于敏感内容应采取其他安全措施。
新创建或修改robots.txt后，可以使用搜索引擎的网站管理工具测试其有效性。