当前位置:  操作系统/服务器>linux

Nginx限制搜索引擎爬虫频率、禁止屏蔽网络爬虫配置示例

    来源: 互联网  发布时间:2014-08-25

    本文导语:  代码如下: #全局配置 limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m; #某个server中  limit_req zone=anti_spider burst=30 nodelay;  if ($http_user_agent ~* "xxspider|xxbot") {  set $anti_spider $http_user_agent; } 超过设置的限定频率,就会给spider一个5...

代码如下:

#全局配置
limit_req_zone $anti_spider zone=anti_spider:10m rate=15r/m;

#某个server中
 limit_req zone=anti_spider burst=30 nodelay;
 if ($http_user_agent ~* "xxspider|xxbot") {
 set $anti_spider $http_user_agent;
}

超过设置的限定频率,就会给spider一个503。
上述配置详细解释请自行google下,具体的spider/bot名称请自定义。

附:nginx中禁止屏蔽网络爬虫

代码如下:

server { 
        listen       80; 
        server_name  www.xxx.com; 
 
        #charset koi8-r; 
 
        #access_log  logs/host.access.log  main; 
 
        #location / { 
        #    root   html; 
        #    index  index.html index.htm; 
        #} 
    if ($http_user_agent ~* "qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo! Slurp|Yahoo! Slurp China|YoudaoBot|Sosospider|Sogou spider|Sogou web spider|MSNBot|ia_archiver|Tomato Bot") { 
                return 403; 
        } 
 
    location ~ ^/(.*)$ { 
                proxy_pass http://localhost:8080; 
        proxy_redirect          off; 
        proxy_set_header        Host $host; 
        proxy_set_header        X-Real-IP $remote_addr; 
        proxy_set_header       X-Forwarded-For   $proxy_add_x_forwarded_for; 
        client_max_body_size    10m; 
        client_body_buffer_size 128k; 
        proxy_connect_timeout   90; 
        proxy_send_timeout      90; 
        proxy_read_timeout      90; 
        proxy_buffer_size       4k; 
        proxy_buffers           4 32k; 
        proxy_busy_buffers_size 64k; 
        proxy_temp_file_write_size 64k; 
    } 
     
        #error_page  404              /404.html; 
 
        # redirect server error pages to the static page /50x.html 
        # 
        error_page   500 502 503 504  /50x.html; 
        location = /50x.html { 
            root   html; 
        } 
 
        # proxy the PHP scripts to Apache listening on 127.0.0.1:80 
        # 
        #location ~ .php$ { 
        #    proxy_pass   http://127.0.0.1; 
        #} 
 
        # pass the PHP scripts to FastCGI server listening on 127.0.0.1:9000 
        # 
        #location ~ .php$ { 
        #    root           html; 
        #    fastcgi_pass   127.0.0.1:9000; 
        #    fastcgi_index  index.php; 
        #    fastcgi_param  SCRIPT_FILENAME  /scripts$fastcgi_script_name; 
        #    include        fastcgi_params; 
        #} 
 
        # deny access to .htaccess files, if Apache's document root 
        # concurs with nginx's one 
        # 
        #location ~ /.ht { 
        #    deny  all; 
        #} 
    } 


可以用 curl 测试一下

代码如下:
curl -I -A "qihoobot" www.xxx.com

    
 
 
 
本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • nginx 服务器介绍
  • 实时 Nginx 分析和诊断工具 nginx-systemtap-toolkit
  • 修改配置真正解决php文件上传大小限制问题(nginx+php)
  • Nginx的TFS模块 nginx-tfs
  • nginx Windows版相关问题及使用说明
  • 重启或杀掉Nginx进程后丢失nginx.pid的解决办法
  • nginx最新主线开发版1.5.4发布及下载地址
  • Nginx 令牌模块 nginx-token
  • nginx最新稳定版1.4.2发布
  • Nginx文件上传模块 nginx-upload-module
  • linux/centos源码安装nginx编译配置选项参数介绍
  • Nginx 负载均衡模块 nginx-upstream-fair
  • nginx服务器基本特性及使用技巧
  • 懂nginx,帮下忙,使用nginx实现大并发
  • linux/centos下安装nginx(rpm安装和源码安装)详细步骤
  • NGINX的流媒体插件 nginx-rtmp-module
  • nginx服务器下通过fastcgi支持php5详细安装配置步骤
  • nginx安装(1) ttlsa教程系列之nginx
  • linux/centos安装nginx常见错误及解决办法
  • 重启nginx后丢失nginx.pid的解决方法
  • nginx中使用nginx-http-concat模块合并静态资源文件


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3