标题: 问个小问题,备案已经通过了。能不能加个论坛玩玩? [打印本页]
作者: sinokid 时间: 2008-11-17 05:37 PM 标题: 问个小问题,备案已经通过了。能不能加个论坛玩玩?
我博客站通过备案了,想在域名下弄个小论坛跟几个熟人热闹下。
论坛内容谈不上什么非法,但也不适合光明正大地去说。
因此决定用个robots文件去限制搜索引擎。
大家觉得可行么?
作者: domin 时间: 2008-11-17 05:39 PM
不可行
作者: CGrrr 时间: 2008-11-17 06:58 PM
相当不可行
作者: 92uu 时间: 2008-11-17 07:17 PM
你搬到国外撤掉备案可行
作者: An_Apple 时间: 2008-11-18 01:07 PM
建议站长们把百度给屏蔽了,估计百度也会做一个某某站长的镜像论坛,像传说中的“百度有啊”一样。
作者: 死猴子 时间: 2008-12-5 01:47 PM
- -百度有这么可怕么
作者: An_Apple 时间: 2008-12-5 07:07 PM
QUOTE:
原帖由 死猴子 于 2008-12-5 01:47 PM 发表
- -百度有这么可怕么
百度 一下,你就知道了。
作者: hc4u 时间: 2008-12-6 10:40 AM
User-agent: Baiduspider
Disallow: /
百度无视robots的- -
NND 我都屏蔽百度好几个月了 还是收录我的页面 我靠- -
作者: sinokid 时间: 2008-12-8 10:07 AM
QUOTE:
原帖由 hc4u 于 2008-12-6 10:40 AM 发表
User-agent: Baiduspider
Disallow: /
百度无视robots的- -
NND 我都屏蔽百度好几个月了 还是收录我的页面 我靠- -
百度是个大流氓。
要屏蔽它只能屏蔽它蜘蛛的IP才可以。
作者: domin 时间: 2008-12-8 01:07 PM
用.htaccess屏蔽它的User-Agent标识就行.
作者: hc4u 时间: 2008-12-8 03:51 PM
好像现在屏蔽baiduspider已经成为一种时尚,难道这玩意也跟着纳斯达克变?
首先我自己不会屏蔽baiduspider,也不大相信baiduspider会故意忽略robots.txt,但如果你真的想屏蔽 baiduspider,可尝试以下方法:
1. 上传一个robots.txt到根目录,内容为:
User-agent: baiduspider
Disallow: /
一个搜索引擎爬虫工作前首先应该访问/robots.txt制定排除列表,baiduspider还无法高级到故意忽略某些网站的robots.txt,不知道baiduspider怎么折腾才能让robots.txt失效。
2. 如果仅仅因为服务器吃不消,不防按照的指示写信给百度。估计很多人试过得不到回复(Google基本都是2个工作日内回复)。
3. 如果还没有办法,可尝试.htaccess屏蔽,上传一个.htaccess文件到根目录,内容为:
SetEnvIfNoCase User-Agent ^baiduspider ban_bot
deny from env=ban_bot
还可以扩大这个列表,屏蔽那些Email提取爬虫、网站克隆爬虫等(小偷一般不守法,但总比自己什么都不做强):
SetEnvIfNoCase User-Agent ^baiduspider ban_bot
SetEnvIfNoCase User-Agent ^HTTrack ban_bot
SetEnvIfNoCase User-Agent ^EmailCollector ban_bot
SetEnvIfNoCase User-Agent ^EmailWolf ban_bot
SetEnvIfNoCase User-Agent ^ExtractorPro ban_bot
SetEnvIfNoCase User-Agent ^Offline ban_bot
SetEnvIfNoCase User-Agent ^WebCopier ban_bot
SetEnvIfNoCase User-Agent ^Webdupe ban_bot
SetEnvIfNoCase User-Agent ^WebZIP ban_bot
SetEnvIfNoCase User-Agent ^Web Downloader ban_bot
SetEnvIfNoCase User-Agent ^WebAuto ban_bot
SetEnvIfNoCase User-Agent ^WebCapture ban_bot
SetEnvIfNoCase User-Agent ^WebMirror ban_bot
SetEnvIfNoCase User-Agent ^WebStripper ban_bot
deny from env=ban_bot
.htaccess要用文本方式上传,有些Apache配置比较怪异,防止引起冲突建议上传后立刻看看是否影响普通用户的访问。如果浏览正常,再用FlashGet模拟baiduspider测试这个.htaccess是否工作,方法是:
FlashGet-工具-选项-协议,把HTTP用户代理改成用户自定义:baiduspider;然后用FlashGet下载该网站任意页面,在FlashGet的下载日志里得到HTTP/1.1 403 Forbidden则成功.
================================================
弄了這個東西,回頭觀察下SB百度的動作了- -
欢迎光临 梦游时光互联 (http://web.meyu.net/) |
Powered by Discuz! 4.0.0 |