查看原文
其他

蒙了,这一长串鬼文是什么鬼

2017-05-12 大邓 大邓带你玩python

这种数据是什么鬼?

text1 = '%E5%A4%A7%E5%AE%B6%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%E5%A4%A7%E9%82%93' 

text2 = '大家好,我是大邓'

经常我们爬数据时候遇到text1数据,这其实是一种编码后的数据,跟咱们用的utf-8,gb2312意思差不多。

理解那一串字符,只需要解码就OK了(text1解码后就是text2)

#给大家一段密文,可以看完本文后试试 kouling = '%E4%BC%98%E7%BE%8E%E8%83%9C%E4%BA%8E%E4%B8%91%E9%99%8B%EF%BC%8C%E6%98%8E%E4%BA%86%E8%83%9C%E4%BA%8E%E6%99%A6%E6%B6%A9%EF%BC%8C%E7%AE%80%E6%B4%81%E8%83%9C%E4%BA%8E%E5%A4%8D%E6%9D%82%EF%BC%8C%E5%A4%8D%E6%9D%82%E8%83%9C%E4%BA%8E%E5%87%8C%E4%B9%B1'

编码

用到urllib.parse.quote

比如将“编程爱好者”编码为

from urllib.parse import quote secrect1 = quote('编程爱好者') secrect1'%E7%BC%96%E7%A8%8B%E7%88%B1%E5%A5%BD%E8%80%85'secrect2 = quote('Code programer') secrect2'Code%20programer'

解码

用到urlib.parse.unquote

将secret解码为'编程爱好者'

from urllib.parse import unquote unquote(secrect1)'编程爱好者'unquote(secrect2)'Code programer'

案例

数据大体如下:

item = "<item author='%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85' dateline='2017-04-18'>%E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B</item>"from bs4 import BeautifulSoup bsObj = BeautifulSoup(item, 'html.parser') bsObj.item<item author="%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85" dateline="2017-04-18">%E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B</item>#获取标签的属性 bsObj.item.attrs{'author': '%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85', 'dateline': '2017-04-18'}#获取作者昵称和许愿内容 author = bsObj.item.attrs['author'] text = bsObj.item.string print(author,'的许愿内容: ',text)%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85 的许愿内容:  %E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B#这并不是我们想要的,我们要解码 from urllib.parse import unquote author = unquote(author) text = unquote(text) print(author,'的许愿内容: ',text)派森爱好者 的许愿内容:  派森真好玩,值得付出时间精力unquote('%E5%A4%A7%E5%AE%B6%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%E5%A4%A7%E9%82%93')'大家好,我是大邓'


更多内容

文本分析

  python居然有情感??真的吗??  

  文本分析之网络关系 

  中文分词-jieba库知识大全

  自然语言处理库之snowNLP

  用gensim库做文本相似性分析

  基于共现发现人物关系的python实现

  用python计算两文档相似度

数据分析

酷炫的matplotlib

文本分析之网络关系  

pandas库读取csv文件  

如何对csv文件中的文本数据进行分析处理

用词云图解读“于欢案”

神奇的python

  初识Python的GUI编程

  Python实现文字转语音功能

 怜香惜玉,我用python帮助办公室文秘

 逆天的量化交易分析库-tushare     

 开扒皮自己微信的秘密

 8行代码实现微信聊天机器人

 使用Python登录QQ邮箱发送QQ邮件

爬虫

  爬虫实战视频专辑

  抓取单博主的所有微博及其评论

【视频】手把手教你抓美女~

  当爬虫遭遇验证码,怎么办

【视频】于欢案之网民的意见(1)?

【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

  爬豆瓣电影名的小案例(附视频操作)

  爬豆瓣电影名的小案例2(附视频操作)

  用Python抓取百度地图里的店名,地址和联系方式




您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存