其他
爬虫遇到字体动态加密?手把手破解
↑↑↑点击上方“蓝字”,关注“极客猴”
如果你喜欢极客猴,可以把我置顶或加为星标
阅读文本大概需要 6 分钟。
没有了解过字体加密的小伙伴可以先看看上一篇,本文与上一篇重复的部分就不细讲了。
我们打开猫眼电影票房榜单的首页
https://maoyan.com/board/1
很明显,猫眼电影的榜单进行了字体加密。
#.woff文件转换成.xml文件
from fontTools.ttLib import TTFont
font = TTFont('./.woff')
font.saveXML('A.xml')
#对比两个坐标的差异
def compare(AA, BB):
for i in range(5):
if abs(AA[i][0] - BB[i][0]) < 80 and abs(AA[i][1] - BB[i][1]) < 80:
pass
else:
return False
return True
#True则可视为是同一个字
这样我们就以某字体基准,无论现在实时的字体是哪一个,只要下载下来,再与该字体进行坐标差异对比,相似的就是同一数字。
1、将新下载的字体文件与base_font对比,找到对应关系2、前缀替换,并将字体名字和它们所对应的乱码构成一个字典3、根据字典将加密的数字替换
# 字体解密
def modify_html(newFont, html):
basefont = TTFont('./base_font.woff')
unilist = newFont['cmap'].tables[0].ttFont.getGlyphOrder()
numlist = []
base_num = ['6', '3', '7', '1', '5', '9', '0', '4', '2', '8']
base_unicode = ['uniF0DA', 'uniE907', 'uniED01', 'uniEAE1', 'uniF206',
'uniE455', 'uniF401', 'uniE19C', 'uniEB76', 'uniF855']
for i in range(1, len(unilist)):
newGlyph = newFont['glyf'][unilist[i]].coordinates
for j in range(len(base_unicode)):
baseGlyph = basefont['glyf'][base_unicode[j]].coordinates
if compare(newGlyph,baseGlyph):
numlist.append(base_num[j])
break
rowList = []
for i in unilist[2:]:
i = i.replace('uni', '&#x').lower() + ";"
rowList.append(i)
dictory = dict(zip(rowList, numlist))
for key in dictory:
if key in html:
html = html.replace(key, str(dictory[key]))
return html
# 返回解密后的html
4、利用正则表达式获取数据# 正则
def parse_page(html):
pattern = re.compile('.*?board-index-.*?>(.*?).*?src="(.*?)".*?'
+ 'title="(.*?)".*?class="star">(.*?)
.*?releasetime">(.*?)
.*?'
+ 'realtime".*?stonefont">(.*?).*?'
+ 'total-boxoffice".*?stonefont">(.*?).*?
'
, re.S)
items = re.findall(pattern, html)
data = pd.DataFrame(items,columns=['index','image','title','star','releasetime','realtime','total-boxoffice'])
data['star']=data['star'].str[3:]
data['releasetime']=data['releasetime'].str[5:]
print(data)
return data
运行一下。
get。
本文相关爬虫代码,仅供学习交流:https://t.zsxq.com/RVn6qBU
微软也爱 Python!VS Code Python 全新发布!
受用一生的高效 PyCharm 使用技巧(六)
技术·思考·职场
长按二维码,添加关注!