首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >禁止robots.txt文件中的所有搜索引擎使用整个目录

禁止robots.txt文件中的所有搜索引擎使用整个目录
EN

Stack Overflow用户
提问于 2014-09-18 19:30:03
回答 1查看 532关注 0票数 1

谁能指导我如何为以下URL或目录创建robots.TXT文件:

我想在搜索引擎中索引的原始URL:

代码语言:javascript
复制
book2park.com/
book2park.com/locations.php

但我在Google数据库中找到的以下URL(几乎所有页面),我想从所有搜索引擎中永久禁止使用:

代码语言:javascript
复制
lawnchair.book2park.com/
lawnchair.book2park.com/locations.php

基本上,在每个URL的开头都会出现“Lawn椅子”。

EN

回答 1

Stack Overflow用户

发布于 2014-09-20 05:51:01

给定的robots.txt文件仅适用于从中加载该文件的确切子域。也就是说,下面的robots.txt文件:

代码语言:javascript
复制
http://sub1.example.com/robots.txt

只能控制以下内容的爬网:

代码语言:javascript
复制
http://sub1.example.com/...

它不能控制以下内容的爬行:

代码语言:javascript
复制
http://example.com/...
http://sub2.example.com/...
http://sub.sub1.example.com/...

解决方案是为每个子域添加一个单独的robots.txt文件。所以,在http://lawnchair.book2park.com/robots.txt上,你可以屏蔽所有东西:

代码语言:javascript
复制
User-agent: *
Disallow: /

http://book2park.com/robots.txt上,你可以允许任何东西:

代码语言:javascript
复制
User-agent: *
Disallow:

(或者你可以在主域上没有robots.txt文件)

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25911505

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档