蒙了，这一长串鬼文是什么鬼

原创 2017-05-12 大邓大邓带你玩python

这种数据是什么鬼？

text1 = '%E5%A4%A7%E5%AE%B6%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%E5%A4%A7%E9%82%93'

text2 = '大家好，我是大邓'

经常我们爬数据时候遇到text1数据，这其实是一种编码后的数据，跟咱们用的utf-8,gb2312意思差不多。

理解那一串字符，只需要解码就OK了（text1解码后就是text2）

#给大家一段密文，可以看完本文后试试
kouling = '%E4%BC%98%E7%BE%8E%E8%83%9C%E4%BA%8E%E4%B8%91%E9%99%8B%EF%BC%8C%E6%98%8E%E4%BA%86%E8%83%9C%E4%BA%8E%E6%99%A6%E6%B6%A9%EF%BC%8C%E7%AE%80%E6%B4%81%E8%83%9C%E4%BA%8E%E5%A4%8D%E6%9D%82%EF%BC%8C%E5%A4%8D%E6%9D%82%E8%83%9C%E4%BA%8E%E5%87%8C%E4%B9%B1'

编码

用到urllib.parse.quote

比如将“编程爱好者”编码为

from urllib.parse import quote
secrect1 = quote('编程爱好者')
secrect1

'%E7%BC%96%E7%A8%8B%E7%88%B1%E5%A5%BD%E8%80%85'

secrect2 = quote('Code programer')
secrect2

'Code%20programer'

解码

用到urlib.parse.unquote

将secret解码为'编程爱好者'

from urllib.parse import unquote
unquote(secrect1)

'编程爱好者'unquote(secrect2)'Code programer'

案例

数据大体如下：

item = "<item author='%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85' dateline='2017-04-18'>%E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B</item>"

from bs4 import BeautifulSoup
bsObj = BeautifulSoup(item, 'html.parser')
bsObj.item

<item author="%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85" dateline="2017-04-18">%E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B</item>

#获取标签的属性
bsObj.item.attrs

{'author': '%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85',
 'dateline': '2017-04-18'}

#获取作者昵称和许愿内容
author = bsObj.item.attrs['author']
text = bsObj.item.string
print(author,'的许愿内容： ',text)

%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85 的许愿内容：  %E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B

#这并不是我们想要的，我们要解码
from urllib.parse import unquote
author = unquote(author)
text = unquote(text)
print(author,'的许愿内容： ',text)

派森爱好者的许愿内容：派森真好玩，值得付出时间精力unquote('%E5%A4%A7%E5%AE%B6%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%E5%A4%A7%E9%82%93')'大家好，我是大邓'

更多内容

文本分析

数据分析

神奇的python

爬虫

【视频】有了selenium，小白也可以自豪的说：“去TMD的抓包、cookie”

【视频】快来get新技能--抓包+cookie,爬微博不再是梦

【视频教程】用python批量抓取简书用户信息

爬豆瓣电影名的小案例（附视频操作）

爬豆瓣电影名的小案例2（附视频操作）

用Python抓取百度地图里的店名，地址和联系方式

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

蒙了，这一长串鬼文是什么鬼

这种数据是什么鬼？

编码

解码

案例

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

蒙了，这一长串鬼文是什么鬼

这种数据是什么鬼？

编码

解码

案例

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡