Encode and Decode

利用encode和decode解决乱码问题

字符串在python内部的表示是Unicode编码,在做编码转换时,通常需要以Unicode作为中间编码,即先将其他编码的字符串解码(decode)成Unicode,再从Unicode编码(encode)成另一种编码。

decode的作用是将其他编码的字符串转换成Unicode编码,如str1.decode(“gb2312”),表示将gb2312编码的字符串str1转换成Unicode编码。

encode的作用是将Unicode编码转换成其他编码的字符串,如str2.encode(“utf-8”),表示将Unicode编码的字符串str2转换成utf-8编码。

1
2
3
4
5
6
7
hds = [{'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}, \
       {'User-Agent': 'Mozilla/5.0 (Windows NT 6.2) AppleWebKit/535.11 '
                      '(KHTML, like Gecko) Chrome/17.0.963.12 Safari/535.11'}, \
       {'User-Agent': 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Trident/6.0)'}]
       
r = requests.get("http://seputu.com/", headers = hds)
print("encofing ---> ", r.encoding)

转码: bytes与str之间的互转

在bytes和str的互相转换过程中,实际就是编码解码的过程,必须显式地指定编码格式。

Python3 把系统默认编码设置为 UTF-8,字符和二进制字节序列区分得更清晰,分别用 str 和 bytes 表示。文本字符全部用 str 类型表示,str 能表示 Unicode 字符集中所有字符,而二进制字节数据用一种全新的数据类型,用 bytes 来表示。

Python有个内置函数bytes()可以将字符串str类型转换成bytes类型,bytes1实际上是一串01的组合,但为了在ide环境中让我们相对直观的观察,它被表现成了b’\xe5\xad\x97\xe7\xac\xa6\xe4\xb8\xb2str’这种形式,开头的b表示这是一个bytes类型。\xe5是十六进制的表示方式,它占用1个字节的长度,因此==“字符串str”被编码成utf-8后,我们可以数得出一共用了12个字节,每个汉字占用3个,英文字母用1个==。在使用内置函数bytes()的时候,必须明确encoding的参数,不可省略。

1
2
3
h = "字符串str"
bytes1 = h.encode("utf-8")
# bytes1 = b’\xe5\xad\x97\xe7\xac\xa6\xe4\xb8\xb2str’

字符串类str里有一个encode()方法,它是从字符串向字节流的编码过程。而bytes类型恰好有个decode()方法,它是从字节流向字符串解码的过程

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
# -*- coding:utf-8 -*-

import urllib

request=urllib.request.Request(r'http://www.douban.com/tag/')
RES=urllib.request.urlopen(request).read()

if isinstance(RES, str):
    RES=RES.encode('utf-8')
else:
    RES=RES.decode().encode('utf-8')

wfile=open(r'./1.html',r'wb')
wfile.write(RES)
wfile.close()
print(RES)

#————————————————
# r'**' means the string will be treated as raw string.

相关的编码知识

GB2312是中华人民共和国国家标准简体中文字符集,全称《信息交换用汉字编码字符集·基本集》。GB2312 (1980年)一共收录了7445个字符,包括6763个汉字和682个其它符号。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。

Unicode 也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案。Unicode的学名是"Universal Multiple-Octet Coded Character Set",简称为UCS。UCS可以看作是"Unicode Character Set"的缩写。

UCS规定了怎么用多个字节表示各种文字。怎样传输这些编码,是由UTF (UCS Transformation Format)规范规定的,常见的UTF规范包括UTF-8、UTF-7、UTF-16。UTF-8就是以8位为单元对UCS进行编码。

参考文章:

updatedupdated2020-08-032020-08-03