字符编码

    要读取非UTF-8编码的文本文件,需要给 open() 函数传入 encoding 参数,例如,读取GBK编码的文件:

    >>> f = open('Usersmichael/gbk.txt', 'r', encoding='gbk')

    >>> f.read()

    '测试'

    遇到有些编码不规范的文件,你可能会遇到 UnicodeDecodeError ,因为在文本文件中可能夹杂了一些非法编码的字符。遇到这种情况, open() 函数还接收一个 errors 参数,表示如果遇到编码错误后如何处理。最简单的方式是直接忽略:

    >>> f = open('Usersmichael/gbk.txt', 'r', encoding='gbk', errors='ignore')