其他
做开发的朋友都会碰到各种各样的编码问题,一不小心就是各种乱码。我在「如何让你的Python应用程序分发变得很容易?」绍到的q(一款直接写SQL查询CSV或者TSV的小工具),它读入CSV的时候默认UTF-8,如果不是,需要你指定编码,如果可以让q自动判断编码(或者有工具帮我们判断),是不是可以省事很多?我在做项目的时候,有个客户把数据从数据库导出CSV传给了我们,我们在读入后,发现结果串行了,经研究发现,是因为乱码(汉字出现了截断,具体原因是客户的数据库编码使用了ISO-8859-1,加之长度设置不够,碰到中英文混合输入,并且结尾为中文的时候,就可能出现只保留某个汉字一半字节的情况),最后使用iconv过滤掉无法识别的字符,至于缺失的字符,也没有办法了(数据库里就已经发生了缺失)。下面我介绍几个Python下和编码有关的包,希望能对解决编码对问题起到帮助。Chardet: