python ‘utf-8’ codec can’t decode byte 0x**解决办法

1、0x01 由于出现了无法进行转换的 二进制数据 造成的

#python3
#以读入文件为例:
f = open("data.txt","rb")#二进制格式读文件
while True:
    line = f.readline()
    if not line:
        break
    else:
        try:
            #print(line.decode('utf8'))
            line.decode('utf8')
            #为了暴露出错误,最好此处不print
        except:
            print(str(line))

2、0x8b情况

http头中headerDict参数: “Accept-Encoding”: “gzip, deflate”,

  代表本地可以接收压缩格式的数据,而服务器在处理时就将大文件压缩再发回客户端,IE在接收完成后在本地对这个文件又进行了解压操作。

  出错的原因是因为你的程序没有解压这个文件,所以删掉这行就不会出现问题。

或者
#html = res.read().decode("utf-8") # 网页响应时开启了gzip压缩,需要解压
#报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte
html = gzip.decompress(res.read()).decode("utf-8")

3、0x03 情况

  1. 修改字符集参数,一般这种情况出现得较多是在国标码(GBK)和utf8之间选择出现了问题。
  2. 出现异常报错是由于设置了decode()方法的第二个参数errors为严格(strict)形式造成的,因为默认就是这个参数,将其更改为ignore等即可。例如:
line.decode("utf8","ignore")