当前位置:  编程语言>python

Python获取网页编码的方法及示例代码

 
    发布时间:2013-7-25  


    本文导语:  客户端浏览器识别网页编码主要从两个地方来进行解析。 1. Http 响应头的Content-Type字段。从Headers中提取编码字段的代码: from urllib.request import * f = urlopen('http://www.baidu.com') print (f.info()) contype = f.headers['Content-Type'] pos = contype.find...

客户端浏览器识别网页编码主要从两个地方来进行解析

1. http 响应头的content-type字段。从headers中提取编码字段的代码:

from urllib.request import *
f = urlopen('http://www.baidu.com')
print (f.info())
contype = f.headers['Content-Type']
pos = contype.find('=')
if -1 != pos:
   contype = contype[pos+1:len(contype)]
print (contype)

2. html网页的<head>中的<meta>的属性http-equiv值为content-type项。

从网页<meta>中获取网页编码的python代码如下:

from urllib.request import *
import re
url='http://www.baidu.com'
s = urlopen(url).read()
m_charset = re.search('<metas*http-equiv="?Content-Type"? content="text/html;s*charset=([wd-]+?)"', s.decode("ISO-8859-1"), re.IGNORECASE)
print(m_charset.group(1))

3.注意事项:

中文GB类型的编码包括GBK,GB2312和GB18030等几种不同的表示法,因此需要仔细判断

以上示例代码在Windows 7下的python 3.3.0版本测试通过。

以上代码仅作示范原理的演示代码,在实际产品环境中需进行进一步改进。


转载本文,请注明出处http://www.169it.com


  • 本站(WWW.169IT.COM)旨在分享和传播互联网科技相关的资讯和技术,将尽最大努力为读者提供更好的信息聚合和浏览方式。
    本站(WWW.169IT.COM)站内文章除注明原创外,均为转载,整理或搜集自网络.欢迎任何形式的转载,转载请注明出处.
    转载请注明:文章转载自:[169IT-IT技术资讯]
    本文标题:Python获取网页编码的方法及示例代码
相关文章推荐:


站内导航:


特别声明:169IT网站部分信息来自互联网,如果侵犯您的权利,请及时告知,本站将立即删除!

©2012-2019,169IT.COM,E-mail:www_169it_com#163.com(请将#改为@)

浙ICP备11055608号