设为首页 加入收藏

TOP

深入理解Python字符集编码
2015-08-31 21:24:42 来源: 作者: 【 】 浏览:28
Tags:深入 理解 Python 字符集 编码

在python中和字符串相关的类型,分别是str,unicode两种不同的类型:


脚本字符编码:


指脚本文件本身是用何种字符编码的,默认情况Python解释器(解释器就是执行python程序的程序)认为脚本是ascii码:


上面是test.py脚本,运行 python test.py 就会包如下错误:


File “test.py”, line 1 yntaxError: Non-ASCII character ‘\xe4′ in file test.py on line 1, but no encoding declared; see http://www.python.org/ ps/pep-0263.html for details


所以如果文件中要使用非ascii编码的字符串,就必须在文件头部声明:


这样就相当于告诉python解释器使用utf8编码或者gb18030来解释脚本文件。


解释器 字符编码:


解释器字符编码是指解释器内部认为的str类型的字符串的编码,也就是说python解释器会把str类型的字符串当作何种字符编码来处理。默认,python解释器字符编码也是ascii的。可以通过命令查看:


不同的字符编码集如utf-8、gbk、iso8859-1等等的字符串(注:这些字符编码集都是针对str类型的字符串而言的,unicode字符串没有字符集这类说法)之间相互转换是怎么进行的呢?答案就是他们通过一个中间桥梁unicode来转换,相关的两个方法是decode和encode。


问题:现在假设我想要把一个gbk字符编码的str对象转换为utf-8的str对象,该如何转换呢?


现在默认我是在windows下操作,操作系统的字符编码默认是gbk的,


gbk字符编码的两个中文的长度是4,如果是utf-8编码的字符串“你好”的长度是6,稍后我们把“s”转换成utf-8的看看是不是长度为6。


首先我们要先把”s”转换成unicode,在从unicode转换成utf-8编码的str对象:


实验证明s1就是一个utf-8编码的str类型的字符串对象。


str(S)与unicode(S)


str(s)和unicode(s)是两个工厂方法,分别返回str字符串对象和unicode字符串对象,str(s)是s.encode(‘ascii’)的简写。实验:


上面s3是unicode类型的字符串,str(s3)相当于是执行s3.encode(‘ascii’),前面介绍过python解释器默认字符编码是’ascii’的,之所以报错是因为转换后的s3里面含有非ascii字符(ascii只能表示0-127之间的ascii码字符)。所以就报错了,正确的指定编码:s3.encode(‘gbk’)就不会出现这个问题了。类似的unicode有同样的错误:


unicode(s4)等效于s4.decode(‘ascii’),而这里s4是gbk字符编码的(因为我的操作系统默认编码是gbk),因此要正确的转换就要正确指定其编码s4.deocde(‘gbk’)。


更新
对于如unicode形式的字符串(str类型):


转换成真正的unicode需要使用:


测试:


下面关于Python的文章您也可能喜欢,不妨看看:


】【打印繁体】【投稿】【收藏】 【推荐】【举报】【评论】 【关闭】 【返回顶部
分享到: 
上一篇Python多线程编程 下一篇排序算法对比分析

评论

帐  号: 密码: (新用户注册)
验 证 码:
表  情:
内  容: