`

python编码处理:unicode字节串转成中文 各种字符串举例说明

阅读更多

编码问题一直是很头痛的问题:

 

当字符串是:'\u4e2d\u56fd' 

>>>s=['\u4e2d\u56fd','\u6e05\u534e\u5927\u5b66']
>>>str=s[0].decode('unicode_escape')  #.encode("EUC_KR")
>>>print str

中国

 

当字符串是:' 东亚学团一中'

>>>print unichr(19996)

ord()支持unicode,可以显示特定字符的unicode号码,如:

>>>print ord('A')
65

只要和Unicode连接,就会产生Unicode字串。如:

>>> 'help'
'help'
>>> 'help,' + u'python'     
u'help,python'

 

对于ASCII(7位)兼容的字串,可和内置的str()函数把Unicode字串转换成ASCII字串。如:

>>> str(u'hello world')
'hello world'

 

 

对几个概念的理解:

ASCII码:    用数据字 对应 相应的字符

image

 

而中文 就是区位码对应汉字    如:“好” 的ASCII码为: 22909

 

unicode 编码 每个国家分一块。   它有UTF-8、UTF-16、UTF-32等形式

中文范围 4E00-9FBF:  这个范围内有 gbk,gb2312,

 

utf-8是基于unicode的 国际化的场合适合使用
gb2312和gb2312都是国标码 出现的较早 主要用于编解码常用汉字

分享到:
评论
2 楼 yyyj8j8 2014-12-19  
1 楼 dophc 2014-08-26  

相关推荐

    Python中的字符串操作和编码Unicode详解

    本文主要给大家介绍了关于 Python中的字符串操作和编码Unicode的一些知识,下面话不多说,需要的朋友们下面来一起学习吧。 字符串类型 str:Unicode字符串。采用”或者r”构造的字符串均为str,单引号可以用双引号...

    Python中文全攻略

    后面所有的“unicode 字符串”指的都是python 里的“unicode 对象”。 事实上在Python 中并没有“Unicode 字符串”这样的东西,只有“unicode”对象。一个传统意义上 的unicode 字符串完全可以用str 对象表示。只是...

    Python教程2.doc

    是2个字节 UTF-8编码把一个Unicode字符根据不同的数字大小编码成1- 6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才 会被编码成4-6个字节。 "字符"ASCII "Unicode "UTF-8 " "A ...

    浅谈python中str字符串和unicode对象字符串的拼接问题

    str字符串 ...unicode是一种编码标准,具体的实现可能是utf-8,utf-16,gbk等等,这就是中文字符串和unicode有密切关系的原因。 python内部使用两个字节存储一个unicode对象(unicode对象并不只能是

    Python+文本分析合集

    有一点必须仔细区分:Python 3中,所有字符串默认是UNICODE;但在Python 2中,str类限制为ASCII码,需要另外一个UNICODE类来专门处理UNICODE。 UNICODE仅仅是一种编码语言或处理文本的方式。例如,字母Z的UNICODE值...

    python3字符集说明.docx

    python3字符集说明 Python3字符集说明 Python3是一种高级编程语言,它支持...在Python3中,UTF-8编码可以通过使用字符串来表示。 python3字符集说明全文共2页,当前为第1页。 Python3中的字符串是不可变的,这意味着一

    Python中字符串与编码示例代码

    在最新的Python 3版本中,字符串是以Unicode编码的,即Python的字符串支持多语言 编码和解码  字符串在内存中以Unicode表示,在操作字符串时,经常需要str和bytes互相转换  如果在网络上传输或保存到磁盘上,则从...

    将字符串传递到 DLL 过程

    通常,字符串应该使用 ByVal 方式传递到 APIs。Visual Basic 使用被称为 BSTR 的 String 数据类型,它是由自动化(以前被称为 OLE自动化)定义的数据类型。一个 BSTR 由头部和字符串组成,头部包含了字符串的长度...

    python-cstring:提供基于C的以n终止的字符串的Python字符串实现

    内置str类型的备用字符串表示形式。 在内部使用C字符串表示形式。 连续分配内存以减少指针跳跃。 UTF-8编码。 len返回以字节为单位的大小(不包括终止的零字节)。 索引和切片支持随机访问(访问字节,而不是...

    Python 存储字符串时节省空间的方法

    从 Python 3 开始,str 类型代表着 Unicode 字符串。取决于编码的类型,一个 Unicode 字符可能会占 4 个字节,这个有些时候有点浪费内存。 出于内存占用以及性能方面的考虑,Python 内部采用下面 3 种方式来存储 ...

    python中字符串的编码与解码详析

    Unicode:能够表示全世界上所有的字符,Unicode有人说占4个字节也有人说占2个字节,但中文占2个字节 UTF-8:Unicode的压缩版,占1~3个字节,其中中文占三个字节 2.补充:计算机表示的单位: bit: 位,计算机最小...

    Python2与Python3关于字符串编码处理的差别总结

    对于文本,Python内部采用Unicode存储,而字节字符串显示原始字节序列或者ASCII。 什么叫编码(encode)? 按照字面意思和以往经验,我要把这个文本或字符串用“UTF-8”编码,感觉上应该是对字节数据进行编码然后...

    C语言字符串转换为Python字符串的方法

    C字符串使用一对 char * 和 int 来表示, 你需要决定字符串到底是用一个原始字节字符串还是一个Unicode字符串来表示。 字节对象可以像下面这样使用 Py_BuildValue() 来构建: char *s; /* Pointer to C string data...

    Python程序设计之字符串

    1.字符串 ①编码格式 UTF-8是国际通用的编码,以一个字节表示英语字符(兼容ASCII),以三个字节表示中文及其他语言,对所有国家需要使用的字符进行了编码。 GB2312/GBK是我国制定的中文编码标准,使用一个字节表示...

    Python 面试题汇总及答案详解完整版

    1:为什么学习 Python 2:通过什么途径学习 Python 3:谈谈对 Python 和其他语言的区别  Python 的优势: 4:简述解释型和编译型编程语言 ...22. 字符串、列表、元组、字典每个常用的 5 个方法

    详解字符串在Python内部是如何省内存的

    Python3 起,str 就采用了 Unicode 编码(注意这里并不是 utf8 编码,尽管 .py 文件默认编码是 utf8 )。 每个标准 Unicode 字符占用 4 个字节。这对于内存来说,无疑是一种浪费。 Unicode 是表示了一种字符集,而...

    python基础系列教程-Python3.x标准模块库目录.docx

    python基础系列教程—Python3.x标准模块库目录 文本 1.string:通用字符串操作 2.re:正则表达式操作 3.difflib:差异计算工具 4.textwrap:文本填充 5.unicodedata:Unicode字符数据库 6.stringprep:互联网字符串...

    Python3编码问题 Unicode utf-8 bytes互转方法

    为什么需要本文,因为在对接某些很老的接口的时候,需要传递过去的是16进制的hex字符串,并且要求对传的字符串做编码,这里就介绍了utf-8 Unicode bytes 等等。 #英文使用utf-8 转换成16进制hex字符串的方法 newstr...

    详解Python当中的字符串和编码

    我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为...

    【Python 技巧】判断字符串是否为字母/数字/大小写/空白字符/有效标识符/可打印字符

    str.islower():判断字符串中所有字母是否都是小写 str.isupper():判断字符串中所有字母是否都是大写 str.istitle():判断字符串中所有单词的首字母都是大写 str.isspace():判断字符串中所有字符是否为由空白字符 ...

Global site tag (gtag.js) - Google Analytics