设为首页 加入收藏

TOP

Python处理中文编码和判断编码
2015-02-02 14:27:26 来源: 作者: 【 】 浏览:11
Tags:Python 处理 中文 编码 判断

在开发自用爬虫过程中,有的网页是utf-8,有的是gb2312,有的是gbk,如果不加处理,采集到的都是乱码,解决的方法是将html处理成统一的utf-8编码


针对python2.7。


代码如下:


html = html_1
else :
html = html_1.decode('gbk','ignore').encode('utf-8')
#有以上处理,整个html就不会是乱码。


】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇Python使用7z解压软件备份文件脚.. 下一篇Python getopt模块处理命令行选项..

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: