换了马甲也能认出“你” | 有了这个数据集，AI有望揪出变种勒索软件

2018-04-25 关注前沿科技 量子位

Root 发自凹非寺
量子位出品 | 公众号 QbitAI

去年5月，恶意勒索软件WannaCry大面积爆发，全球不少国家机构、企业、个人终端电脑中招，电脑文件被锁。

要想恢复重要资料，就必须向黑客支付300到600美元等值的比特币。

尽管微软早在去年3月14号就发布了针对该勒索软件所利用的漏洞的补丁，但不久又出来个Wannacry 2.0变种版本，导致更多电脑陷入魔爪。

由于勒索软件和僵尸网络不断“换马甲”，传统网络安全公司只能疲于奔命，被动地一一应付。考虑到AI强大的学习能力，擅长“以暴制暴”的黑客型网络安全公司Endgame想借助AI之力，帮助他们及时地识别出变种的恶意软件。

可是有个问题：目前缺少可供训练的数据集。

像图像识别或自然语言处理领域，都已经有庞大的开源的数据集来训练算法。但帮助AI识别勒索软件的数据集，还没有。

谁适合来做这件事呢？想来想去，拥有丰富防御黑客经验的Endgame决定自己上。

网络安全公司Endgame

其实，网络安全方面的数据从来都不缺。但因为数据总会涉及到个人的隐私，以及网络金融密码等信息，所以网络安全领域一直缺乏合适的数据集。

上周，Endgame宣布开源Ember（Endgame Malware BEnchmark for Research）数据集，其中含有杀毒软件VirusTotal 2017年检测到的110万个便携可执行文件（PE文件）的sha256哈希值，供研究恶意软件。

为了避免泄露个人隐私，Endgame特地没有在Ember里放这些PE文件本身。但这个数据集包含元数据（metadata），也就是PE文件里提取出的特征，以及基于这些特征训练得出的基准模型。

有了开源的基准数据集之后，研究人员就可以量化AI技术的学习效果了。

关于数据

这110万个样本里，有90万个是用于训练的，剩下的拿来测试。

训练的样本里，恶意软件、无害软件、未标注软件的样本数相等，都是30万。测试样本里的恶意软件和无害软件等比。

每个样本都包含了PE文件的sha256哈希值，文件初次浏览月份，标注, 以及从文件提取出的特征。

从下图可以看出，训练数据和测试数据的比例。

横坐标指代训练/测试时间段，这个信息对于随时识别“换脸”的恶意软件来说非常重要。这个数据集的目标，就是能识别出没有见过的恶意软件。

不过，公开这个数据集，Endgame要冒很大的风险。毕竟一旦公开之后，黑客也能接触到。训练样本被篡改后，识别模型就完蛋了。

除了数据，Endgame还在GitHub上建了一个储存库，方便大家使用这些数据。Ember库定义了基准模型的训练工作环境，大家也可以拿这些数据反复地训练模型。

Endgame还提供Jupyter notebook（https://github.com/endgameinc/ember/blob/master/resources/ember-notebook.ipynb），上面有模型表现的信息。代码里还特地有一段是定义特征的提取过程，详细介绍了如何从PE文件里算出特征。

有了这些资源，任何一个人都能下载到基准模型，然后用库重新分类新的PE文件。

关于模型

Ember基准模型，是一个梯度提升决策树（GBDT）。在默认模型参数的基础上，用LightGBM训练的。该模型在测试集的表现可以看下图。

对比二值分类器，一个比较好的方法是模型评估指标AUC。

Ember模型的测试成绩达到了0.9991123分。用同一个GBDT算法，也还有很多简单的办法提高这个分数，比方说优化模型的参数，进一步筛选特征，或者再提取出更好的特征。

Ember相当于一个测量参照，看模型训练的效果有没有不断靠近理想目标。

OMT

虽然挺好用的，但Endgame建议不要用Ember模型作为抗病毒的引擎。这只是个研究阶段的成果，和Endgame旗下成熟的产品MalwareScore还不一样。

Ember模型还没有更多地优化，也没有持续地更新数据，理论上来说没有现有的大部分防毒软件表现那么好。

Endgame模型的目的，是提供对比数据，也给未来的研究提供一个支撑点。

最后，Ember数据库的传送门：
https://github.com/endgameinc/ember

Endgame原文
https://www.endgame.com/blog/technical-blog/introducing-ember-open-source-classifier-and-dataset

论文：
https://arxiv.org/abs/1804.04637

△ 网上盛传的WannaCry的“进阶版”

— 完 —

活动报名

加入社群

量子位AI社群16群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot6入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot6，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足

换了马甲也能认出“你” | 有了这个数据集，AI有望揪出变种勒索软件

Root 发自凹非寺
量子位出品 | 公众号 QbitAI

网络安全公司Endgame

关于数据

关于模型

OMT

△ 网上盛传的WannaCry的“进阶版”

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

官媒发声：反对调休的声音不能装聋作哑！这不是放假，是“假放”（五一假期）

豪放女乘客扯掉裤子当场“硬要”，的哥乖乖“束手就擒”……

为什么京东员工强烈推荐京东plus会员不要直接在平台上买东西？

别太贪婪，这些技能让你一辈子满足

生成图片，分享到微信朋友圈

换了马甲也能认出“你” | 有了这个数据集，AI有望揪出变种勒索软件

Root 发自 凹非寺量子位 出品 | 公众号 QbitAI

网络安全公司Endgame

关于数据

关于模型

OMT

△ 网上盛传的WannaCry的“进阶版”

您可能也对以下帖子感兴趣

Root 发自凹非寺
量子位出品 | 公众号 QbitAI