查看原文
其他

我去!爬虫遇到JS逆向AES加密反爬,哭了

李运辰 Python研究者 2022-09-11


大家好,我是辰哥~


今天准备爬取某抑云音乐时,遇到JS逆向AES加密』反爬。比如这样的:


在发送请求获取数据时,需要用到参数params和encSecKey,但是这两个参数经过JS逆向AES加密而来。


既然遇到了这个情况,那么辰哥就教大家如何去解决这类反爬(JS逆向AES加密

01


网页分析


在开始分析JS逆向AES加密之前,先简单介绍一下要爬取的内容:下载某抑云音乐其中获取歌曲的真实播放地址m4a的过程涉及JS逆向AES加密


下面以其中某一首歌为例,讲解如何获取真实播放地址m4a

https://music.163.com/#/song?id=447926067


点击播放,在浏览器中查看抓取到的数据包,如下图所示:


查看响应数据:


可以看到在url字段中存储着真实播放地址,放到浏览器中打开:


可以看到正常播放,说明歌曲的真实播放地址获取正确。


通过python代码模拟刚刚的数据包

import requestsurl = 'https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token='headers = { 'origin': 'https://music.163.com', 'referer': 'https://music.163.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}data = { 'params':"kfrpgkCxCqTasItEhNe7042j8xNS7nalB11d9wFaUoezjOuCIDNGoLHPpk07nLyJZ+djempygeNwT9cNTevt+EPoIh7PIt4azw1PCpqATmDINbItDAvRFlNsxD/U2qcklFs6dYKbfv7XNINTN9flwQ==", 'encSecKey':"d24731778bf850f62c59c42b26f48250aec066cc880d15a8481921bb71f73ce02578490065e3c2a7310d8eb3d7a7c4813f9caaa008bdb4b8a4d3473362ec411d259db25adbbe67cad9fe2ae60a090d3d7893e3b8c369c034285fe9e60a93310557a9f09834eceafb73558ba400099184fc318af5f55aa68b77d148ab4688073e",}response = requests.post(url, headers=headers, data=data).json()print(response)


正确返回:


代码中唯一变的就是data,data里面包含两个参数(params和encSecKey),根据辰哥的经验,这八九不离十是经过JS加密而来,并且肯定跟歌曲的地址有关(浏览器页面地址,非真实播放地址)


02


JS逆向过程


既然知道这两个参数是js逆向加密而来,那直接搜索这两个参数存在于哪个js文件中。


搜索到了5个js,那么就查看这两个参数都同时存在于哪个js中,刚好在第一个js中就看到了。

 


可以看到params对应的是encText,encSecKey对应的是encSecKey。encText和encSecKey来自于bUE3x,而bUE3x来自于window.asrsea

var bUE3x = window.asrsea(JSON.stringify(i3x), bsf6Z(["流泪", "强"]), bsf6Z(WS0x.md), bsf6Z(["爱心", "女孩", "惊恐",并以某抑云"大笑"]));


继续搜索window.asrsea


可以看到window.asrsea来源于d,d是一个函数,该函数中返回的h赋值给window.asrsea。这里我们给函数d打断点


点击刷新网页,重新播放


可以看到函数d需要传入四个参数,通过分析多首歌曲,分析参数e、f、g没变化,唯一变是参数d中的id


这个id刚好是歌曲的id

https://music.163.com/#/song?id=447926067


函数d接收到四个参数后,创建一个字典h(用于存放变量),接着调用函数a,我们继续给函数a打断点


刷新网页


函数a的作用就是生成一个16为的随机数,下面是函数a运行后最终的参数值,其中c是返回值,因此我们可以认为c是一个固定的值(反正也是随机生成的)

a: 16b: "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"c: "z2Ggtvz5ZIsiKO5F"


函数a解析完了,继续分析函数d。

function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h.encSecKey = c(i, e, f), h}


接着经过两次AES加密(执行了两次函数b)

function b(a, b) { var c = CryptoJS.enc.Utf8.parse(b) , d = CryptoJS.enc.Utf8.parse("0102030405060708") , e = CryptoJS.enc.Utf8.parse(a) , f = CryptoJS.AES.encrypt(e, c, { iv: d, mode: CryptoJS.mode.CBC }); return f.toString()}


需要传入参数a和b,实际上就是函数d中的参数d和g,参数g是固定的,参数d我们刚刚已经分析过了。


一开始分析的两个js逆向参数(params和encSecKey)的parmas我们已经清楚了加密过程(encText就是params)


接着函数d继续看

h.encSecKey = c(i, e, f),

encSecKey是通过函数c得到,函数c的代码如下:

function c(a, b, c) { var d, e;        return setMaxDigits(131), //131 => n的十六进制位数/2+3   d = new RSAKeyPair(b,"",c), e = encryptedString(d, a) }


函数c:通过RSA加密生成encSecKey值。


OK,JS逆向加密分析的过程就完成了。

03


模拟加密过程


分析完加密过程,能够通过代码去实现也是重要的一环

1.AES加密

# AES加密def AES_encpyt(text, key): """AES加密""" # AES加密明文必须为16的整数倍 padding = 16 - len(text.encode()) % 16 text += padding * chr(padding) aes = AES.new(key.encode(), AES.MODE_CBC, b'0102030405060708') enctext = aes.encrypt(text.encode()) return b64encode(enctext).decode('utf-8')


创建一个AES的加密函数,传入值text和key就可以返回加密值

2.构造表单

在发送请求过程中,需要传入表单,参数格式如下:


加密得到params和encSecKey后需要构造成上述格式的表单:

# 构造表单def make_form(text): data = { 'encSecKey': '526fa53a5d1d9ba3de5fe30592c98aa95b843ca026618c8ad2067183ec172a8262b6cd1b5000c84b8223525bfca0cfb61808d21040f9a46afdc5dbdea554a714f336e6a63adcc5340b9e1f3ca923e00e1b6352b2ec8e995401267a2d4fd037f3189c6c96179b7eef9ee16cbb2c896c913a33b9fed32496cd01965621a104f7b3' } # 随机秘钥参数,可以用固定值 i = "Ba6Xk3DAhfidcpqA" key = '0CoJUm6Qyw8W8jud' # 两次加密 first_encrypt = AES_encpyt(text, key) data['params'] = AES_encpyt(first_encrypt, i) # 返回构造好的表单数据 return data


make_form需要传入的参数text内容如下:

text = '{"ids":"[歌曲id]","level":"standard","encodeType":"aac","csrf_token":""}'


通过改变歌曲id即可获取到对应的真实播放地址,比如:

text = '{"ids":"[447926067]","level":"standard","encodeType":"aac","csrf_token":""}'

3.发送请求

url = 'https://music.163.com/weapi/song/enhance/player/url/v1?csrf_token='headers = { 'origin': 'https://music.163.com', 'referer': 'https://music.163.com/', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'}response = requests.post(url, headers=headers, data=make_form(text)).json()print(response)


其中 make_form(text)就是调用加密的函数。

返回结果:

04


小结


辰哥在本文中主要讲解了『JS逆向AES加密』反爬,并以网抑云获取歌曲真实播放地址为例去实战演示分析。


不明白的地方可以在下方留言或者后台加辰哥微信,一起交流。


最后说一声:原创不易,求给个赞、在看、评论


今日推荐
搞定!在某手上搜索视频,并实现下 【保姆级】利用Github搭建自己的个人博客,看完就会 打造一个window桌面应用:在线聊天对话机器人


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存