1.确定要阻止搜寻器搜寻Web服务器上的哪些目录和文件
1.确定您是否需要为特定搜索引擎机器人指定除通用搜寻指令集之外的其他指令
3.使用文本编辑器创建robots.txt文件和指令以阻止内容
4.可选:添加对站点地图文件的引用(如果有的话)
5.通过验证robots.txt文件检查错误
6.将robots.txt文件上传到您网站的根目录
确定您要阻止搜寻器阻止的Web服务器上的目录和文件
1.检查您的Web服务器上是否有搜索引擎不希望访问的已发布内容。
2.在您要禁止的Web服务器上创建可访问文件和目录的列表。示例 您可能想让漫游器忽略对这样的站点目录的爬网,例如/ cgi-bin,/ scripts和/ tmp(或等价的目录,如果它们存在于您的服务器体系结构中)。
确定您是否需要为特定搜索引擎机器人指定除通用搜寻指令集之外的其他指令
检查您的Web服务器的引荐来源记录日志,以了解是否有适用于所有漫游器的漫游器在您要阻止的站点上进行爬网。
注意
Bingbot找到自己的一组特定指令后,将忽略通用部分中列出的指令,因此,除了在文件自己的部分中为它们创建的特定指令外,您还需要重复所有通用指令。
使用文本编辑器创建robots.txt文件,并添加REP指令以阻止内容被机器人访问。文本文件应以ASCII或UTF-8编码保存。
(1).在robots.txt文件中,机器人称为用户代理。在文件的开头,通过添加以下行来开始适用于所有漫游器的指令的第一部分:用户代理:*
(2).创建一个Disallow指令列表,列出要阻止的内容。示例 鉴于我们先前使用的目录示例,此类指令集如下所示:
User-agent: *
Disallow: /cgi-bin/
Disallow: /scripts/
Disallow: /tmp/
注意
(1)您不能在一行中列出多个内容引用,因此您需要为要阻止的每个模式创建一个新的Disallow:指令。但是,您可以使用通配符。请注意,每个URL模式都以正斜杠开头,代表当前站点的根。
(2)您还可以对存储在目录中的文件使用Allow:指令,否则目录的内容将被阻止。
(3).如果要为不适用于所有漫游器的特定漫游器添加自定义指令,例如crawl-delay :,请在第一个通用部分之后的自定义部分中添加它们,将用户代理引用更改为特定漫游器。
注意
建议不要添加为各个机器人自定义的指令集。重复通用部分中的指令通常需要使文件维护任务复杂化。此外,正确维护这些自定义部分的遗漏通常是搜索引擎机器人抓取问题的根源。
可选:添加对站点地图文件的引用(如果有的话)
如果您创建了一个Sitemap文件,其中列出了网站建设上最重要的页面,则可以通过在文件末尾的单独行中引用该漫游器来指向该漫游器。
示例 通常将站点地图文件保存到站点的根目录中。这样的Sitemap指令行如下所示:站点地图:https://www.mumanet.com/sitemap/cn.xml
通过验证robots.txt文件检查错误
将robots.txt文件上传到您网站的根目录
注意
您无需将新的robots.txt文件提交给搜索引擎。搜索引擎机器人会自动在您网站的根目录中定期查找名为robots.txt的文件,如果找到该文件,则会首先读取该文件,以查看与它们相关的指令(如果有)。请注意,搜索引擎会将robots.txt的副本至少保留几个小时在其缓存中,因此更改可能需要几个小时才能反映在其抓取行为中
本文来源于必应网站管理员工具:https://www.bing.com/webmaster/help/how-to-create-a-robots-txt-file-cb7c31ec