网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?
有些站长比较喜欢将站点上线测试(不喜欢在本地测试),但是又不想被百度等搜索引擎抓取,那么应该怎么暂时屏蔽呢?今天就跟大家简单介绍几种方法。
方法一:
WordPress 站点可以直接登录站点后台 >> 设置 >> 阅读 >> 勾选“建议搜索引擎不索引本站点”并点击【保存更改】即可。
方法二:
直接在网站根目录中新建一个 robots.txt 文件,然后在文件中添加以下代码:
User-Agent: *
Disallow: /
方法三:
通过 noindex 标记来禁止,直接在站点的头文件 header.php 文件中添加以下代码:
<meta name="robots" content="noindex" >
方法四:
通过 PHP 代码禁止(wordpress 站点为例),将以下代码添加到主题目录的 functions.php 当中:
ob_start("Deny_Spider_Advanced");
function Deny_Spider_Advanced() {
$UA = $_SERVER['HTTP_USER_AGENT'];
$Spider_UA = '/(spider|bot|)/i'; //定义需要禁止的蜘蛛 UA,一般是 spider 和 bot
//如果检测到 UA 不为空而且发现是蜘蛛则返回 404
if($UA && preg_match_all($Spider_UA,$UA)) {
header('HTTP/1.1 403 Forbidden');
header("status: 403 Forbidden");
}
}
可以自行替换或添加以上的 spider|bot,多个用|隔开即可。
方法五:
Nginx 禁止,在 server{}中添加以下代码:
#如果抓取的 UA 中含有 spider 或 bot 时返回 403
if ($http_user_agent ~* "spider|bot") {
return 403; #如果是删除已收录的,则可以返回 404
break;
可以自行替换或添加以上的 spider|bot,多个用|隔开即可。
方法六:
Apache 禁止,在.htaccess 中添加以下代码:
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (^$|spider|bot) [NC]
RewriteRule ^(.*)$ - [F]
可以自行替换或添加以上的 spider|bot,多个用|隔开即可。
总结
理论上以上 6 种方法都有效,建议找适合自己站点的一种办法来使用即可。一般采用方法二比较普遍,如果能够结合方法五或六来使用估计效果更佳。
http://xzh.i3geek.com1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长!
2. 分享目的仅供大家学习和交流,请不要用于商业用途及非法用途,否则后果自负!
3. 如果你也有好源码或者教程,可以到审核区发布,分享有金币奖励和额外收入!
4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解!
5. 如有链接无法下载、失效或广告,请联系管理员处理!
6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需!
7. 如遇到加密压缩包,默认解压密码为"qq301.com",如遇到无法解压的请联系管理员!
资源客是一个优秀的分享资源站,本站资源均为各位友友分享而来,特殊原创会标明如有侵犯版权等可联系删除
资源客 » 网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?
资源客 » 网站不想被百度等搜索引擎抓取应该怎么暂时屏蔽?