当前位置:  编程技术>python

一则python3的简单爬虫代码

    来源: 互联网  发布时间:2014-10-04

    本文导语:  不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。 代码如下:#test rdpimport urllib.requestimport re#登录用的帐户信息data={}data['fromUrl']=''data['fromUr...

不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接贴代码。

代码如下:

#test rdp
import urllib.request
import re

#登录用的帐户信息
data={}
data['fromUrl']=''
data['fromUrlTemp']=''
data['loginId']='12345'
data['password']='12345'
user_agent='Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
#登录地址
#url='http://192.168.1.111:8080/loginCheck'
postdata = urllib.parse.urlencode(data)
postdata = postdata.encode('utf-8')
headers = { 'User-Agent' : user_agent }
#登录
res = urllib.request.urlopen(url,postdata)
#取得页面html
strResult=(res.read().decode('utf-8'))
#用正则表达式取出所有A标签
p = re.compile(r'(.*?)')
for m in p.finditer(strResult):
    print (m.group(1))#group(1)是href里面的内容,group(2)是a标签里的文字

关于cookie、异常等处理看了一下,没有花时间去处理,毕竟只是想通过写爬虫来学习python。


    
 
 
 
本站(WWW.169IT.COM)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
本站(WWW.169IT.COM)站内文章除注明原创外,均为转载、整理或搜集自网络。欢迎任何形式的转载,转载请注明出处。












  • 相关文章推荐
  • Python3中内置类型bytes和str用法及byte和string之间各种编码转换
  • gvim7.3支持python3的问题
  • Python3通过request.urlopen实现Web网页图片下载
  • 新装python3在Ubuntu中左右键显示乱码
  • 在Python3中使用urllib实现http的get和post提交数据操作
  • Python3实现生成随机密码的方法
  • python3编写C/S网络程序实例教程
  • python3.3实现乘法表示例
  • python3.0 字典key排序
  • Python3实现的腾讯微博自动发帖小工具
  • python3使用urllib示例取googletranslate(谷歌翻译)
  • Python3实现连接SQLite数据库的方法
  • 让python同时兼容python2和python3的8个技巧分享
  • python3图片转换二进制存入mysql
  • python3访问sina首页中文的处理方法
  • python3使用tkinter实现ui界面简单实例
  • Mac OS X10.9安装的Python2.7升级Python3.3步骤详解
  • Python3.0与2.X版本的区别实例分析
  • python3.3使用tkinter开发猜数字游戏示例
  • Python3基础之条件与循环控制实例解析
  • Python3基础之list列表实例解析


  • 站内导航:


    特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

    ©2012-2019,169IT.COM,E-mail:www_169it_com#163.com(请将#改为@)

    浙ICP备11055608号-3