其他
蒙了,这一长串鬼文是什么鬼
这种数据是什么鬼?
text1 = '%E5%A4%A7%E5%AE%B6%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%E5%A4%A7%E9%82%93'
text2 = '大家好,我是大邓'
经常我们爬数据时候遇到text1数据,这其实是一种编码后的数据,跟咱们用的utf-8,gb2312意思差不多。
理解那一串字符,只需要解码就OK了(text1解码后就是text2)
#给大家一段密文,可以看完本文后试试
kouling = '%E4%BC%98%E7%BE%8E%E8%83%9C%E4%BA%8E%E4%B8%91%E9%99%8B%EF%BC%8C%E6%98%8E%E4%BA%86%E8%83%9C%E4%BA%8E%E6%99%A6%E6%B6%A9%EF%BC%8C%E7%AE%80%E6%B4%81%E8%83%9C%E4%BA%8E%E5%A4%8D%E6%9D%82%EF%BC%8C%E5%A4%8D%E6%9D%82%E8%83%9C%E4%BA%8E%E5%87%8C%E4%B9%B1'
编码
用到urllib.parse.quote
比如将“编程爱好者”编码为
from urllib.parse import quote
secrect1 = quote('编程爱好者')
secrect1
'%E7%BC%96%E7%A8%8B%E7%88%B1%E5%A5%BD%E8%80%85'
secrect2 = quote('Code programer')
secrect2
'Code%20programer'
解码
用到urlib.parse.unquote
将secret解码为'编程爱好者'
from urllib.parse import unquote
unquote(secrect1)
'编程爱好者'
unquote(secrect2)
'Code programer'
案例
数据大体如下:
item = "<item author='%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85' dateline='2017-04-18'>%E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B</item>"
from bs4 import BeautifulSoup
bsObj = BeautifulSoup(item, 'html.parser')
bsObj.item
<item author="%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85" dateline="2017-04-18">%E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B</item>
#获取标签的属性
bsObj.item.attrs
{'author': '%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85',
'dateline': '2017-04-18'}
#获取作者昵称和许愿内容
author = bsObj.item.attrs['author']
text = bsObj.item.string
print(author,'的许愿内容: ',text)
%E6%B4%BE%E6%A3%AE%E7%88%B1%E5%A5%BD%E8%80%85 的许愿内容: %E6%B4%BE%E6%A3%AE%E7%9C%9F%E5%A5%BD%E7%8E%A9%EF%BC%8C%E5%80%BC%E5%BE%97%E4%BB%98%E5%87%BA%E6%97%B6%E9%97%B4%E7%B2%BE%E5%8A%9B
#这并不是我们想要的,我们要解码
from urllib.parse import unquote
author = unquote(author)
text = unquote(text)
print(author,'的许愿内容: ',text)
派森爱好者 的许愿内容: 派森真好玩,值得付出时间精力
unquote('%E5%A4%A7%E5%AE%B6%E5%A5%BD%EF%BC%8C%E6%88%91%E6%98%AF%E5%A4%A7%E9%82%93')
'大家好,我是大邓'
更多内容
文本分析
数据分析
神奇的python
爬虫
【视频】有了selenium,小白也可以自豪的说:“去TMD的抓包、cookie”
【视频】快来get新技能--抓包+cookie,爬微博不再是梦