当前位置:  编程技术>python

Python爬虫框架Scrapy安装使用步骤

    来源: 互联网  发布时间:2014-10-04

    本文导语:  一、爬虫框架Scarpy简介Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python实现,完全开源,代码托管在Github上...

一、爬虫框架Scarpy简介
Scrapy 是一个快速的高层次的屏幕抓取和网页爬虫框架,爬取网站,从网站页面得到结构化的数据,它有着广泛的用途,从数据挖掘到监测和自动测试,Scrapy完全用Python实现,完全开源,代码托管在Github上,可运行在Linux,Windows,Mac和BSD平台上,基于Twisted的异步网络库来处理网络通讯,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。

二、Scrapy安装指南

我们的安装步骤假设你已经安装一下内容:Python2.7lxmlOpenSSL,我们使用Python的包管理工具pip或者easy_install来安装Scrapy。
pip的安装方式:

代码如下:
pip install Scrapy

easy_install的安装方式:
代码如下:
easy_install Scrapy

三、Ubuntu平台上环境配置

1、python的包管理工具
当前的包管理工具链是 easy_install/pip + distribute/setuptools
distutils : Python 自带的基本安装工具, 适用于非常简单的应用场景;
setuptools : 针对 distutils 做了大量扩展, 尤其是加入了包依赖机制. 在部分 Python 子社区已然是事实上的标准;
distribute : 由于 setuptools 开发进度缓慢, 不支持 Python 3, 代码混乱, 一帮程序员另起炉灶, 重构代码, 增加功能, 希望能够取代 setuptools 并被接纳为官方标准库, 他们非常努力, 在很短的时间便让社区接受了 distribute;,setuptools / distribute 都只是扩展了 distutils;
easy_install : setuptools 和 distribute 自带的安装脚本, 也就是一旦 setuptools 或 distribute 安装完毕, easy_install 也便可用. 最大的特点是自动查找 Python 官方维护的包源 PyPI , 安装第三方 Python 包非常方便; 使用:
pip : pip 的目标非常明确 – 取代 easy_install. easy_install 有很多不足: 安装事务是非原子操作, 只支持 svn, 没有提供卸载命令, 安装一系列包时需要写脚本; pip 解决了以上问题, 已俨然成为新的事实标准, virtualenv 与它已经成为一对好搭档;

安装过程:
安装distribute  

代码如下:
$ curl -O http://python-distribute.org/distribute_setup.py 
$ python distribute_setup.py

安装pip:
代码如下:
$ curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py 
$ [sudo] python get-pip.py

2、Scrapy的安装
在Windows平台上,可以通过包管理工具或者手动下载各种依赖的二进制包:pywin32,Twisted,zope.interface,lxml,pyOpenSSL,在Ubuntu9.10以后的版本上,官方推荐不用使用Ubuntu提供的python-scrapy包,它们要么太老要么太慢,无法匹配最新的Scrapy,解决方案是,使用官方的Ubuntu Packages,它提供了所有的依赖库,并且对于最新的bug提供持续的更新,稳定性更高,它们持续的从Github仓库(master和stable branches)构建,Scrapy在Ubuntu9.10之后的版本上的安装方法如下:
输入GPG密钥

代码如下:
sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 627220E7

创建/etc/apt/sources.list.d/scrapy.list 文件
代码如下:
echo 'deb http://archive.scrapy.org/ubuntu scrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list

更新包列表,安装scrapy版本,其中VERSION用实际的版本代替,如scrapy-0.22
代码如下:
sudo apt-get update && sudo apt-get install scrapy-VERSION

3、Scrapy依赖库的安装
ubuntu12.04下scrapy依赖库的安装
ImportError: No module named w3lib.http

代码如下:
pip install w3lib

ImportError: No module named twisted
代码如下:
pip install twisted

ImportError: No module named lxml.html
代码如下:
pip install lxml

解决:error: libxml/xmlversion.h: No such file or directory

代码如下:
apt-get install libxml2-dev libxslt-dev 
apt-get install python-lxml

解决:ImportError: No module named cssselect

代码如下:
pip install cssselect 

ImportError: No module named OpenSSL
代码如下:
pip install pyOpenSSL 

4、定制自己的爬虫开发
切换到文件目录,开启新的工程

代码如下:
scrapy startproject test

 


    
 
 

您可能感兴趣的文章:

  • 基于python实现的网络爬虫功能:自动抓取网页介绍
  • 一则python3的简单爬虫代码
  • python网络爬虫采集联想词示例
  • python爬虫教程之爬取百度贴吧并下载的示例
  • Python天气预报采集器实现代码(网页爬虫)
  • python爬虫常用的模块分析
  • python抓取网页图片示例(python爬虫)
  • python使用rabbitmq实现网络爬虫示例
  • python实现的一只从百度开始不断搜索的小爬虫
  • python实现博客文章爬虫示例
  • python实现爬虫下载漫画示例
  • python编写网页爬虫脚本并实现APScheduler调度
  • python模拟新浪微博登陆功能(新浪微博爬虫)
  • Python开发实例分享bt种子爬虫程序和种子解析
  • Python线程框架 greenlet
  • 在python的WEB框架Flask中使用多个配置文件的解决方法
  • 分享15个最受欢迎的Python开源框架
  • python网络编程之TCP通信实例和socketserver框架使用例子
  • Python Web框架Pylons中使用MongoDB的例子
  • python常用web框架简单性能测试结果分享(包含django、flask、bottle、tornado)
  • Python ORM框架SQLAlchemy学习笔记之安装和简单查询实例
  • Python ORM框架SQLAlchemy学习笔记之映射类使用实例和Session会话介绍
  • Python的ORM框架SQLObject入门实例
  • Python ORM框架SQLAlchemy学习笔记之关系映射实例
  • 全面解读Python Web开发框架Django
  • Python的ORM框架SQLAlchemy入门教程
  • Python ORM框架SQLAlchemy学习笔记之数据查询实例
  • Python ORM框架SQLAlchemy学习笔记之数据添加和事务回滚介绍
  • python网络编程学习笔记(10):webpy框架
  •  
    本站(WWW.)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • python发布模块的步骤分享
  • centos下更新Python版本的步骤
  • Mac OS X10.9安装的Python2.7升级Python3.3步骤详解
  • 使用python搭建Django应用程序步骤及版本冲突问题解决
  • python socket网络编程步骤详解(socket套接字使用)
  • Python GUI编程:tkinter实现一个窗口并居中代码
  • 让python同时兼容python2和python3的8个技巧分享
  • Python不使用print而直接输出二进制字符串
  • 使用setup.py安装python包和卸载python包的方法
  • Python中实现json字符串和dict类型的互转
  • 不小心把linux自带的python卸载了,导致安装一个依赖原python的软件不能安装,请问该怎么办?
  • python异常信息堆栈输出到日志文件
  • python读取csv文件示例(python操作csv)
  • python下用os.execl执行centos下的系统时间同步命令ntpdate
  • python基础教程之python消息摘要算法使用示例
  • Python namedtuple对象json序列化/反序列化及对象恢复
  • 新手该如何学python怎么学好python?
  • Python获取网页编码的方法及示例代码
  • 使用python删除nginx缓存文件示例(python文件操作)
  • Python异常模块traceback用法举例
  • python学习手册中的python多态示例代码
  • 操作系统 iis7站长之家
  • 请教:system("C:\python2.4\python.exe C:\aa.py");该语句有何错误?为什么运行界面一闪就消失了并且没有运行完,请给出正确语句!
  • 基于Python的Html/xml解析库Beautiful Soup 4.2.1发布
  • python版本的问题
  • 测试Python内部类型及type和isinstance用法区别
  • python安装的问题


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2021,,E-mail:www_#163.com(请将#改为@)

    浙ICP备11055608号-3