查看原文
其他

看雪.京东 2018 CTF 第二题点评与解析

CTF 看雪学院 2019-05-27


最近阴雨连绵,

股市大跌,币市大跌,

投个世界杯,结局还常常翻转


罢了罢了.......曲终人散

还是多做几道CTF 题吧,说不定还能拿个Xbox


赶快围观一下刚过去的看雪.京东2018 CTF 第二题,

共有49人攻破。


第二题过后,前十名排名变化较大,如下:


恭喜各位!试问CTF最后如何发展?

CTF和世界杯哪一个更精彩?

还看各位了!



看雪版主&评委 netwind 点评


此题难度适中,作者利用树型结构来作为序列号的验证算法,找到生成树的字典,并跟踪比较过程便可求解。



看雪.京东 2018 CTF 第二题 设计思路


0x00 前言


很多CM都是基于各种算法的,很少有基于数据结构的CM。这个Trie树其实是学校考试的时候的一道题,然后那次考试我没考好(逃。。。考完之后我就去搜索了一下关于Trie树的资料,然后觉得这个挺有意思的,就根据这个数据结构写了个CM。


0x01 Trie树介绍


简单的说,Trie树是做了一个映射,将字符串映射到其对应的频率或者其它值。


又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希树高。——百度百科

 

比方说,现在有一些单词 kanxue ctf crack me crack,那么,crack会被映射到2,因为它出现过2次,而其它的会被映射到1。


Trie树的实现



——维基百科

如图所示,


trie树的性质:

  1. 根节点的字符串是空

  2. 其它节点字符串不为空

  3. 一个节点的所有子节点的所有字符串,不能有相同前缀:比方说abc和agf就不能在同一个节点下面,因为他们有相同前缀a

  4. 从根节点开始,走到任意一个节点,将走过的路径上的所有字符串拼接起来,那个终点节点的数便是拼接起来的字符串的映射到的频率(或者不一定是频率,也可以是某个其它value)。比方说,这张图,就很明显了。romane,就映射到1,ruber,就映射到5。


PS:我这道题实现的方法是,把前缀存在节点,每个节点可以存多个字符,所以查找子节点需要for遍历。根节点为空字符串,跟网上一般的实现有点区别(不然又成开源CM了)。


0x02 题目


TrieTree相关逻辑算法


这道题,正确答案是一个如图所示的Trie Tree:



char str_c[2];
char str_k[2];
char str_7[2];
char str_M[2];
char str_f[2];
char str_9[2];
char str_kx[3];
char str_t[2];

getStr_f(str_f);
getStr_t(str_t);
getStr_M(str_M);
getStr_7(str_7);
getStr_9(str_9);
getStr_k(str_k);
getStr_c(str_c);
getStr_kx(str_kx);
//get the string dynamically
//so that these string will not appear in the .rodata

node_9.setContent(str_9);
node_M.setContent(str_M);
node_k.setContent(str_k);
node_c.setContent(str_c);
node_7.setContent(str_7);
node_t.setContent(str_t);
node_kx.setContent(str_kx);
node_f.setContent(str_f);
//set the content of the Trie Tree Node


node_M.addChild(&node_k);
node_t.addChild(&node_9);
node_7.addChild(&node_M);
node_t.addChild(&node_f);
node_c.addChild(&node_7);
node_root.addChild(&node_kx);
node_c.addChild(&node_t);
node_root.addChild(&node_c);
//build the trie tree

node_c.setNumber(0);
node_k.setNumber(1);
node_9.setNumber(1);
node_t.setNumber(1);
node_7.setNumber(1);
node_M.setNumber(2);
node_root.setNumber(0);
node_f.setNumber(1);
node_kx.setNumber(1);
//set the frequency

answerTree.setRoot(&node_root);

首先判断输入长度和内容,全是字母数字和长度为22的检查,这个不说。

 

然后,会将输入拆成
xx xx xxx xx xxxx xxx xxx xxx


的形式,一个个地插入到一个空的Trie树中


char c7M[4];
char c7[3];
char ctf[4];
char c7M2[4];
char c7Mk[5];
char ct[3];
char ct9[4];
char kx[3];

c7[2] = 0;
ct[0] = input[2];
c7M2[3] = 0;
c7[1] = input[1];
c7Mk[3] = input[12];
ct9[0] = input[16];
c7Mk[0] = input[9];
kx[0] = input[7];
c7Mk[1] = input[10];
kx[1] = input[8];
c7M[1] = input[5];
c7Mk[4] = 0;
ctf[2] = input[15];
ct[2] = 0;
kx[2] = 0;
c7M2[2] = input[6];
ctf[1] = input[14];
c7M2[0] = input[4];
ct[1] = input[3];
ctf[0] = input[13];
ct9[3] = 0;
c7M2[1] = input[20];
ct9[1] = input[17];
c7[0] = input[0];
c7M[2] = input[21];
ctf[3] = 0;
c7M[0] = input[19];
c7Mk[2] = input[11];
ct9[2] = input[18];
c7M[3] = 0;
//seperate the input into serveral sections
//shuffle the order, so more difficult to reverse
//I don't use things like substring, that will make it easy to reverse
RadixTree rt;
rt.addString(ctf);
rt.addString(c7);
rt.addString(c7Mk);
rt.addString(c7M2);
rt.addString(ct);
rt.addString(kx);
rt.addString(ct9);
rt.addString(c7M);
//add the sections into RadixTree
if (rt == answerTree)
{//if tree is equal, do the third check
   thirdCheck(c7, kx, ctf, ct9, szCor, szWrong);
}
else
{
   MyMessageBox(szWrong);
}

然后如果这两个树相等,进入下一次检查


if ((c7[0] ^ c7[1]) == ('c'^'7') &&
       (kx[0] ^ kx[1]) == ('x'^'k') &&
       (ctf[2] ^ ctf[1]) == ('f'^'t') &&
       (ct9[1] ^ ct9[2]) == ('t'^'9'))
       MyMessageBox(szCor);
   else
       MyMessageBox(szWrong);

因为trie树只统计了频率,并没有统计顺序。这个时候就要判断一下,每个位置上是否是正确的值,为了防止直接的明文出现,这里使用了异或。


C++类设计


UML图如下


 

其中,带Abs的是抽象基类;Static是静态tree和node,也就是用来装正确答案的;而什么都没加的是用来放置输入的。

 

Node代表节点,而Tree的成员变量会存一个Node作为根节点

 

TrieTreeString和TrieTreeChildren分别用来代替STL的std::string和std::vector,目的是降低难度(这道题我出出来是想让大家能够做出来的)。


A类唯一作用就是在他的构造函数中初始化好正确答案的Trie,因为全局对象的构造函数会在main函数之前被调用。


0x03 题目中的提示


其实很明显了,第一点是在pdb path中

 

 

\x00截断后,存在提示。当然这个可能发现的人不多。。。

 

 

这个应该就很明显了,没RTTI的类的类名都告诉你了。


(可恶的出题人因为觉得放这个提示会太简单,所以此条提示作废)

 

还有我在一个地方使用了dynamic_cast,所以说RTTI会被打开,那么其实类名已经告诉你了。

 



实际上,使用工具class_informer,完全可以获取到上面所说的类的继承关系的信息。


 

(如何,在这个充满反调试与虚拟机保护的比赛中,是不是对这种提示感到了一丝温暖


0x04 使用HexRaysPyTools逆向C++类


https://github.com/igogo-x86/HexRaysPyTools

 

一个挺好用的IDA插件,逆C++的时候用这个特别爽,可以省去很多不必要的工作,而且特别适合解这道题,所以推荐给大家。安装说明在上面的repo中,这里不解释。

 

这里举个例子,比方说,我们想还原类TrieTreeNode。首先找到它的构造函数sub_403100,然后右键deep scan

 

 

这个的意思是,它会根据所有这个变量传达到的函数,根据访问偏移推测出其成员变量,这个工具原理就是这个,大家自行领会。

 

然后Edit->plugins->HexRaysPyTools

 

 

 

然后得出的结果会有collision,正常,因为对于同一个偏移可能有不同类型的访问方式,所以我们把一些无关的disable掉(选中按disable按钮),然后逆向发现偏移4处很可能是一个byte array,所以先双击_DWORD把类型改成_BYTE,再点array按钮。最后点finalize,创建结构体。如图所示。

 

 

与源代码对比一下


//TrieTreeNodeAbs
protected:
   TrieTreeString content;
   TrieTreeChildren<> children;
   int number;
private:
   TrieTreeNodeAbs* findChildGivenContent(const TrieTreeString& str) const;
//TrieTreeString
#define MAX_STRING_LEN 128
   char str[MAX_STRING_LEN];
   size_t length;
//TrieTreeChildren
template<typename Node = TrieTreeNodeAbs, size_t MAX_NUM_CHILD = 32>
//...
private:
   Node* children[MAX_NUM_CHILD];
   size_t num;

#pragma pack(push, 1)
struct TrieTreeNode
{

 Vtable_TrieTreeNode *vtable;
 _BYTE string_and_children[260];
 _DWORD children_num;
 _DWORD number;
};
#pragma pack(pop)

发现还是有点偏差,所以这个东西也不可能一键还原C++类,还是需要手工再逆向并且修改的。不过这个自动化识别已经可以帮我们省去很多工作了。


0x05 简单的保护


唯一做了保护的地方就是动态生成字符串。毕竟不能把一些很关键的字符串直接放在.rodata里的。


动态生成字符串


import sys
import random

sysArgn = len(sys.argv)

def genCCode(istr):
   three = random.randint(0, 0xFF)
   two   = random.randint(0, 0xFF)
   one   = random.randint(0, 0xFF)
   zero  = random.randint(0, 0xFF)

   cCode = ""
   i = 0
   l = []
   for c in istr:
       l.append(ord(c) ^ ((three*i*i*i + two*i*i + one*i + zero) % 0x100))
       i = i + 1
   cCode = cCode + "void getStr(char* szDesP)\n//pre: the szDes must have size " + str(len(istr) + 1) + "\n{\n\tunsigned char* szDes = (unsigned char*)szDesP;\n";
   i = 0;
   for x in l:
       cCode = cCode + "\tszDes[" + str(i) + "] = " + str(x) + ";\n"
       i = i + 1;
   cCode = cCode + "\tszDes[" + str(i) + "] = 0;\n"

   cCode = cCode + "\tfor (unsigned int i = 0; i < " + str(len(istr)) + "; i++)"
   cCode = cCode + "\n\t{\n\t\tszDes[i] ^= (unsigned char)"
   cCode = cCode + "("+hex(three)+"*i*i*i + "+hex(two)+"*i*i + "+hex(one)+"*i + "+hex(zero)+");\n\t}\n}"
   return cCode;


def main(argn, argv):
   if (argn != 2):
       print("must have 1 argument")
   else:
       print genCCode(argv[1])

main(sysArgn, sys.argv)

这段python脚本可以生成一段C语言代码,这段C语言代码可以动态返回一个字符串


//python genDynCstring.py HelloWorld
void getStr(char* szDesP)
//pre: the szDes must have size 11
{
       unsigned char* szDes = (unsigned char*)szDesP;
       szDes[0] = 185;
       szDes[1] = 141;
       szDes[2] = 123;
       szDes[3] = 224;
       szDes[4] = 58;
       szDes[5] = 215;
       szDes[6] = 116;
       szDes[7] = 70;
       szDes[8] = 181;
       szDes[9] = 124;
       szDes[10] = 0;
       for (unsigned int i = 0; i < 10; i++)
       {
               szDes[i] ^= (unsigned char)(0x2d*i*i*i + 0x15*i*i + 0xb5*i + 0xf1);
       }
}//执行完后,szDesP里面的内容会是"HelloWorld"

这个其实很简单,动态调试,或者符号执行,都可以把这个分析出来,所以破解方法不详细说了。

 

具体生成的方法说下,随机生成一个三次多项式的系数,再把这个多项式% 0x100,记做函数f,那么在Python中就是f(i)^str[i]作为一开始赋值的常数,其中str是原字符串。那么在后面C的还原中,便是f(i)^str[i]^f(i),即str[i]。



看雪.京东 2018 CTF 第二题解析



*本解析来自看雪论坛 DKni


0x00 测试


吐槽一下:这几天忙,没注意时间,居然错过了第一题。。。

 

先看下程序语言


 

随便输入点什么,查看报错内容

 

 

拖进IDA,居然被挑衅了

 

 

果然字符串没发现什么有用信息,
根据数据结构的题目,这是一个AVTrieTree,只分析过平衡二叉树,对这个树并不太了解。

 


0x01 IDA分析


以下代码均为配合OD调试整理

 

程序主函数


 

很多赋值操作


 

初始化操作


 

TrieTree核心比较函数



0x02 OD调试


老薛语录:观察数据变化,注重大局,不拘小节



新建节点

由代码可知,并未进行初始化,直接在0x20*4的位置保存当前节点字符串长度,中间会有很多无效数据,给后面分析造成很大不便,这里我们手动初始化置0,下面显示红色部分字节,大部分为手动置0;



ecx传参,可知节点是一个类或结构体



新建节点



插入节点
push 子节点,ecx传入this指针




this指针指向位置




第一个字段为vftable虚函数表,




第二个字段为根节点,指向位置大小为0x110




添加节点后数据变化



TrieTree比较

节点插入完毕,根据代码可得知对树作比较,


内存中可以看到根节点下只有两个子节点




跟踪节点,可以遍历到这几个字符
kx,c,7,M,k,t,9,f











结构如下



到这基本差不多猜出了密码
8个节点,组合成这几个单词
kx,c7,c7m,c7mk,ct,ctf,ct9

好像少了一个单词?

这里还有一个小坑:
有一个单词是重复的
通过单步跟踪找到M,原来M使用了2次




两个树比较相同后,进入下一个比较函数,
检查字符串顺序




Bingo!



0x03 TrieTree内存结构


经过以上分析,可得知本程序中TrieTree内存结构


静态节点



TrieTree类



TrieTree节点



关于子节点数量0x20,可能存在多数组情况,静待各位大佬解析


TrieTree参考资料


数据结构之Trie树
6天通吃树结构—— 第五天 Trie树
Trie树(字典树)_实现模糊查找(支持中文)
Trie树的数组实现原理


0x04 心得总结


对TrieTree不熟悉,到节点比较位置就卡住了,分析了一下午,没什么成果,搜索了一些相关资料,参考demo,才顺利搞定!


两个小坑


1.输入的密码生成的树是局部变量,在堆栈中,并且没有初始化,垃圾数据较多,给分析造成很大不便
2.节点的最后一个字段是以当前字符为结尾的单词数,这个容易被忽略


收获
又多熟悉了一种数据结构



合作伙伴

京东集团是中国收入最大的互联网企业之一,于2014年5月在美国纳斯达克证券交易所正式挂牌上市,业务涉及电商、金融和物流三大板块。

 

京东是一家技术驱动成长的公司,并发布了“第四次零售革命”下的京东技术发展战略。信息安全作为保障业务发展顺利进行的基石发挥着举足轻重的作用。为此,京东信息安全部从成立伊始就投入大量技术和资源,支撑京东全业务线安全发展,为用户、供应商和京东打造强大的安全防护盾。

 

随着京东全面走向技术化,大力发展人工智能、大数据、机器自动化等技术,将过去十余年积累的技术与运营优势全面升级。面向AI安全、IoT安全、云安全的机遇及挑战,京东安全积极布局全球化背景下的安全人才,开展前瞻性技术研究,成立了硅谷研发中心、安全攻防实验室等,并且与全球AI安全领域知名的高校、研究机构建立了深度合作。

 

京东不仅积极践行企业安全责任,同时希望以中立、开放、共赢的态度,与友商、行业、高校、政府等共同建设互联网安全生态,促进整个互联网的安全发展。


CTF 旗帜已经升起,等你来战!

扫描二维码,立即参战!






戳原文,立刻加入战斗!

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存