python基础2(字符编码)

字符编码:

  • ASCII:(百度解释)美国(国家)信息交换标准(代)码,一种使用7个或8个二进制位进行编码的方案,最多可以给256个字符(包括字母、数字、标点符号,控制字符及其他符号)分配(或指定)数值,基本的 ASCII字符集共有 128 个字符,其中有 96 个可打印字符,包括常用的字母、数字、标点符号等,另外还有 32 个控制字符。

个人理解:共128个字符,包括英语字母,数字和特殊符号,

#  在python中转换字符编码的方法
ord('A')
#输出为65
ord('中')
#输出为20013
chr(66)
#输出为'B'
chr(25991)
#输出为'文'
  • GBK:GBK即汉字内码扩展规范,K为扩展的汉语拼音中“扩”字的声母。英文全称Chinese Internal Code Specification。GBK编码标准兼容GB2312,共收录汉字21003个、符号883个,并提供1894个造字码位,简、繁体字融于一库。GB2312码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集——基本集》,1980年由国家标准总局发布。基本集共收入汉字6763个和非汉字图形字符682个,通行于中国大陆。新加坡等地也使用此编码。GBK是对GB2312-80的扩展,也就是CP936字码表 (Code Page 936)的扩展(之前CP936和GB 2312-80一模一样)

个人理解:GB是国标的缩写,GBK包含全部中文字符,不论中英文都是双字节的,但没有utf-8多且常用。

  • UTF-8:UTF-8 编码是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24位(三个字节)来编码。对于英文字符较多的论坛则用UTF-8 节省空间。另外,如果是外国人访问你的GBK网页,需要下载中文语言包支持。访问UTF-8编码的网页则不出现这问题,可以直接访问。

  • Unicode:万国码,包含世界上所有语言符号,用4个字节存储一个符号,比较浪费空间。

参照:UTF-8和GBK有什么区别?_百度知道 (baidu.com)

字符编码_百度百科 (baidu.com)

(此外,还有一些字符编码我们不常用,所以就没有列出)

你可能感兴趣的