CodeQL漏洞挖掘实战

Original 格物实验室绿盟科技研究通讯 2023-01-29

CodeQL是一个白盒源码审计工具，它以一种非常新颖的方式组织代码与元数据，使研究人员能够“像查询数据库一样检索代码”，并发现其中的安全问题。GitHub于去年收购了开发CodeQL的公司Semmel，并与其联合成立了GitHub Security Lab，Semmel在此前推出了面向开源社区和企业的源代码分析平台LGTM，这个平台能够自动化的发现并预警GitHub上开源软件的安全问题，同时，与CodeQL一样对开源社区与开发者保持免费。

本文将从CodeQL的基础知识出发，跟随GitHub Security Lab发布的互动式体验课程[1]，带领读者认识CodeQL在代码审计中的实际应用——在特定版本的uboot源码中发现多个安全问题，通过一段CodeQL查询语句定位到9个CVE漏洞。

一、CodeQL工作原理

CodeQL的整体工作流程[2][3]如下图所示：

CodeQL的查询需要建立在一个数据库的基础之上，这个数据库是通过Extractor模块对源代码进行分析、提取后得到的。数据库建立之后，我们就可以使用CodeQL去探索源码，并发现代码中的一些已知问题。

对于编译型语言，CodeQL会在建立数据库时“模拟”编译的过程，在make等编译工具链调用gcc等编译器时，用相同的编译参数调用extractor模块取而代之，收集源代码的所有相关信息，如AST抽象语法树、函数变量类型、预处理器操作等等。对于解释型语言，因为没有编译器的存在，CodeQL会以跟踪执行的方式获取类似的信息。

二、CodeQL使用

使用CodeQL CLI对代码仓库运行分析[4]后，我们就得到了一个“快照数据库”[5]（SnapshotDatabase），这个数据库中存储了代码仓库在特定时间点（数据库建立时）的层级表示方式，包括AST语法树、CFG控制流程关系和DFG数据流向关系。在这个数据库中，代码中的每一个要素，比如函数定义（Function）、函数调用（FunctionCall）、宏调用（MacroInvocation）都是可以被检索的实体。在这些基础上，我们再编写CodeQL语句对代码进行分析。

CodeQL环境的安装在这里不再赘述，在官方教程[6]与本文涉及的课程内容中[7]都有详细说明。在VSCode中导入数据库之后，我们就可以开始编写第一条CodeQL语句了。

三、基本语法

我们以字节序转换函数为例，查找uboot代码库中ntohs、ntohl、ntohll的定义。

从上面的代码段中我们可以看到，CodeQL遵循与SQL相似的基本语义：select ... from ... where ...。但不同的是CodeQL中又加入了面向对象的思想，比如m.getName()可以获取查询对象的名字，再调用另一个函数进行正则匹配获得我们最终需要的名称匹配逻辑表达式。本例CodeQL的运行输出如下图所示，表格中每一行的蓝色代码片段都可以点击跳转到uboot代码库中，相应宏的定义位置。

常用的几种查询对象类型：

Function 函数定义、函数声明
FunctionCall 函数调用
Macro 宏定义
MacroInvocation 宏调用
Expr 表达式
AssignExpr 赋值表达式（是Expr的子集）
ConditionalStmt 条件表达式

通过上面的方式，我们可以使用CodeQL对代码中的基本单元进行查询检索。更进一步，我们可以定义class将复杂的判断条件进行封装，输出更精确的结果。

我们对上一个例子中宏调用的查询进行延申，通过定义一个NetworkByteSwap类，这个类代表符合“某些特征”的表达式的全集，在本例中，我们限定我们需要的是包含ntohs、ntohl宏调用的表达式，并通过from n select n的方式将它们简单的列举出来

以上CodeQL语句的输出如下图所示。

我们点击返回的第1条结果，可以看到编辑器会跳转到表达式所在的文件，并将整条表达式选中高亮起来，非常直观。

学到现在，我们就可以用CodeQL来尝试一下挖漏洞了！

回忆上一步，我们定义了一个NetworkByteSwap类，用于筛选出调用ntohs的表达式。接下来，我们引入CodeQL中的污点跟踪模块，指定这些表达式为污点源（source），并设置数据汇聚点为memcpy的第3个参数。根据Linux的manpage[8]，memcpy函数的第3个参数是待复制数据块的长度，因为ntohs是进制转换的函数，因此通过ntohs输入的数据很有可能是用户可控的参数值，通过这条路径传递给memcpy，就能转化为用户可控的内存操作。这就是漏洞的根源。将这个数据流关系转化为CodeQL代码如下。

我们只在上一个例子的基础上增加了约20行代码，运行之后，得到9条结果，根据课程介绍[9]，此时应该可以得到9个CVE漏洞了。但笔者才疏学浅，根据CVE漏洞库中的描述，粗略统计过后，能直观看出的漏洞点的CVE漏洞有6个，各位读者可以自行尝试。

这就是整个U-Boot Challenge课程的尾声，用40行的代码，挖出了一箩筐CVE漏洞。

四、结语代码审计并不是什么新兴领域，业界、学术界我们都能找到很多成熟的工具，如Fortify SCA、RIPS、Coverity等等，商业软件如Fortify提供了非常完善的规则库，它们能够快速、自动化的发现通用型的安全问题。而CodeQL更接近于一个分析框架，它赋能研究人员对审计目标进行更为复杂的安全建模，但同时也更依赖研究者对审计目标、底层技术有更为深入的理解。简单的漏洞可以靠工具发现，更复杂的漏洞就需要靠人去挖掘了。CodeQL作为一个分析框架，在专家经验的加持下，才能够发挥其最大的功效，这是它的缺点，但它作为一个框架，能够提供丰富的API和简洁的语义使研究者能够快速验证分析思路、发现特定场景产生的漏洞，这种高度自由也是其不可忽视的优点。

参考文献：

[1]本文讲解的在线课程：CodeQL U-Boot Challenge: https://lab.GitHub.com/GitHubtraining/codeql-u-boot-challenge-(cc++)

[2] CodeQL 原理讲解：How Semmle QL works: https://blog.semmle.com/introduction-to-variant-analysis-part-2/

[3] CodeQL 若干问题思考及 CVE-2019-3560 审计详解 | Lenny's Blog https://lenny233.GitHub.io/2020/02/20/codql-and-cve-2019-3560/

[4] Creating CodeQL databases — CodeQLhttps://help.semmle.com/codeql/codeql-cli/procedures/create-codeql-database.html

[5] Snapshot Database:https://help.semmle.com/codeql/about-codeql.html#about-codeql-databases

[6] Semmle官方教程：VSCode插件的使用：https://help.semmle.com/codeql/codeql-for-vscode/procedures/using-extension.html

[7]本文讲解的在线课程：CodeQL U-Boot Challenge: https://lab.GitHub.com/GitHubtraining/codeql-u-boot-challenge-(cc++)

[8] memcpy - copy memory area - Library Functions |ManKier https://www.mankier.com/3/memcpy

[9]本文讲解的在线课程：CodeQL U-Boot Challenge: https://lab.GitHub.com/GitHubtraining/codeql-u-boot-challenge-(cc++)

关于格物实验室

格物实验室专注于工业互联网、物联网和车联网三大业务场景的安全研究。致力于以场景为导向，智能设备为中心的漏洞挖掘、研究与安全分析，关注物联网资产、漏洞、威胁分析。目前已发布多篇研究报告，包括《物联网安全白皮书》、《物联网安全年报2017》、《物联网安全年报2018》、《物联网安全年报2019》、《国内物联网资产的暴露情况分析》、《智能设备安全分析手册》等。与产品团队联合推出绿盟物联网安全风控平台，定位运营商行业物联网卡的风险管控；推出固件安全检测平台，以便快速发现设备中可能存在的漏洞，以避免因弱口令、溢出等漏洞引起设备控制权限的泄露。

内容编辑：张浩然责任编辑：肖晴王星凯

往期回顾

本公众号原创文章仅代表作者观点，不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权，严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用，转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新中心负责运营，绿盟科技创新中心是绿盟科技的前沿技术研究部门。包括云安全实验室、安全大数据分析实验室和物联网安全实验室。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新中心作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一，与清华大学进行博士后联合培养，科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向，从实践出发，结合公司资源和先进技术，实现概念级的原型系统，进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码，即可关注我们

反向激励，在加速这个社会的黑化

指向自身的觉醒，只会导向新的困境

清华大学的113周年校庆：都这么创新了吗？

刚刚，司法部原副部长，在公安部工作过28年的省公安厅原厅长被查

观察｜实验室被强行关闭，病毒学家在门口过夜？

CodeQL漏洞挖掘实战

参考文献：

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

指向自身的觉醒，只会导向新的困境

清华大学的113周年校庆：都这么创新了吗？

刚刚，司法部原副部长，在公安部工作过28年的省公安厅原厅长被查

观察｜实验室被强行关闭，病毒学家在门口过夜？

生成图片，分享到微信朋友圈

CodeQL漏洞挖掘实战

参考文献：

您可能也对以下帖子感兴趣