查看原文
其他

Xtecher | 从北大到普林斯顿,大数据领域的“神雕侠侣”

2015-04-30 张一甲 Xtecher


文|张一甲
Xid : 甲小姐

本文首发于xtecher.com


此时此刻的北京,数据世界如大山大水,男孩的事业也如江河般从高处迸发飞泻而走向壮阔。而只有男孩心里最清楚,无论走多远,飞多快,在一路特立独行的冲锋之中,女孩始终以一种同行者的形式存在着——在男孩初长成所需经历的所有挣扎和磨练中,他所获得的,不仅仅是她生活上的陪同,更是她时刻齐步的头脑与精神的共鸣。她的存在,就像是永远准备好了,抵达旁人望尘莫及的判断,供上灵魂深处的给养,带着从未被时光剥离的独特意味,随时给予男孩和他的事业最专业和丰盛的启发。



1.王储归来


08年1月,哈尔滨,第23届中国数学奥林匹克(CMO)刚结束,几百个队员进行了一张大合影。


天寒地冻,呜呜泱泱的人站满了一个大铁架,空气湿热了起来。我的左边站上来一位姐姐,身形纤细,头发乌黑。嘈杂人声中,她自我介绍叫王颖斐,山东姑娘,比我大一岁,声音清亮。这是个再短暂不过的相识,不知为何这瞬间一直清晰。


08年9月,王颖斐来到北大信息科学技术学院,第二年,我来到北大数院。在数院,我听闻了一位师兄,王储,山东人,08级鼎鼎有名的“大神”,成绩拔尖,科研风生水起,当时从事科学计算的张平文教授在我们面前一提起他就赞不绝口。一认识,就发现了一件巧合:王储是王颖斐的男朋友。后来得知,两人中学同学,16岁高一时坠入爱河,一路相伴进入北大,浓情蜜意,彼此初恋。


大学阶段,我和王储、王颖斐这对师兄师姐的接触机会并不多,只听说这一对不仅恩爱和睦,还齐头并进,势如破竹,在各自学院名列前茅,大四双双拿到普林斯顿博士offer:一个学机器学习,一个学应用数学,带着众人的羡艳,配上了婚戒,双飞去了美国。


“一对情侣在普林斯顿天堂般的小镇里相处几年潜心学术,这简直太神仙了!”那时,王储王颖斐留给我们师弟师妹的印象也定格在这样的钦佩声中,直到三年后的春天。



“王储回来了!”全数院都在说。


“普林科技CTO”,这title让我眼前一亮。是那个王储吗?不是正在美读博第三年吗?



中关村soho 7层。


办公室洁白通透,视野宽阔。北侧落地窗外,北四环车水马龙,再往北看,就是北京大学了。现代的装潢还流露着新办公室的气息,但显然这里的工位已经不够用了,人挨人,如大学时代的阅览室,键盘声此起彼伏,噼里啪啦。


“计划赶不上变化,交了一年的房租,才四个月地方就不够用了。”一见面王储就笑了。他正在积极物色新的办公室,普林科技需要立刻扩大地盘。


我走进会议室,玻璃墙上密密麻麻地铺满了各式各样的公式符号和数学模型。很显然,这里正在时刻不断地上演着激烈的讨论:一个又一个大而繁的实际问题正在被数据化、模型化,演变成算法和解决方案,源源不断地输出着这群年轻大脑的思考成果。置身其中,我的心头一软——王储回来了,竟这样回来了。顺带着的,那种大学时通宵建模的刺激感啊;埋头演算的烧脑感啊;数学人硬碰硬的较真感啊;不达目的不罢休的执拗感啊……一下子全都回来了。


北京,中关村soho,7层办公室


2.建模高手


王储笑着说“我下限比较低”,他在描绘自己对数学的理解。


在很多数学家看来,应用比起理论,总不够纯粹漂亮。但应用派的王储,本科和博士学的都是应用数学,乐于拥抱一切复杂棘手的现实问题,挽起袖子,弄脏双手。“学到任何知识,我都会去联想它有什么用。”


本科期间王储酷爱参加建模竞赛。在一次参与MCM(美国大学生数学建模竞赛)的时候,要解决的命题是设计一个U型滑雪道形状,通过空气阻力等因素考虑,既要让滑雪运动员不容易受伤,飞起来够高够安全,又要保证形状够美,观看视觉刺激够好。为此王储和女友王颖斐还有另一位同学三人一起组了一个建模队,沉浸了3天时间,给出了一个上佳的解决方案,一举拿下了MCM最高奖outstanding。


极强的数理背景和编程能力,让王储在一次又一次的建模之中,成为了一个解决问题的能手。“我们读书期间所学的很多应用概念就是想一想为止了。但建模真正能够给我三四天时间,让我完全浸泡其中,摄取庞杂信息,恶补大量知识,从菜鸟变成专家,给出解决方案。这个过程是很刺激的。”


一次次从问题的表层走向理解的深处,王储形成了自己看待世界的方式。“我对世界充满求知欲,但并不是通过看新闻。在我对什么感兴趣时,我会用逻辑拽着自己,主动搜索,顺藤摸瓜地理解它,而不是仅仅去看世界呈现给我的样子。”


这种主动捕捉信息的姿态,让处于信息海啸世界里的王储不会为大量的信息和数据感到厌倦。在美深造了应用数学和机器学习的王储明白,海量的有潜在价值的数据正躺在国内各大机构的硬盘里,而它们本来应有更好的存在方式。于是,他带着国际上更先进的解决方案,从普林斯顿出发,回到了国内更大的市场。


对王储而言,普林科技诞生的理所当然。是否去开公司,只是一个形式而已。看待世界、发现问题、立刻寻找解决办法的习惯,是流淌在血液里的早已注定了的人生志向。


3.“国内90%的大数据公司不懂大数据”


在今天,“大数据”这个大热词简直人人随口就来。但数据在很多人眼中是干巴巴的,没有乐趣更无意味可言。


“如果只是非常‘干’的数据,做出来的效果一定不会好。”在普林科技,王储会和同事们深入思考大数据背后具体的人。普林科技有很多项目经理,他们的工作任务之一就是仔细了解某个群体方方面面的行为特征。“建模是故事的核心。但并不是故事的全貌。就像我们做题,要用很多时间去读题目,理解题目,之后才是列方程。”


随着大数据概念的火热,做大数据的公司越来越多。而在王储看来,国内90%声称做大数据的公司并非真正懂得“大数据”。


在大数据领域,有一个金字塔,越往上难度越高,从业者越少。在这个金字塔的最底层,是大数据存储,做硬件,把稳定性和价格做好,卖给有大数据存储需求的机构;再往上,做大数据系统,读取、存储、计算数据;再往上,做的是统计分析;而最高层,做的是数据挖掘、机器学习——也就是王储和普林科技专注的领域。


“在这个金字塔中,国内到‘机器学习’层次的人才很少,仅有的人才主要在BAT,而大公司难免是商业驱动,首要把自己的数据研究清楚,而不太关心外面的数据。普林科技曾帮助北京交通信息中心做路况信息数据处理,这是一件造福社会的事。此外,世界上还有庞大的数据等待被处理。坦白说,目前能够意识到这项工作重要性的机构并不多,因此,普林科技要做大量的包装和市场教育,告诉他们我们要做的事情是什么。”


为了使得更多人理解数据科学和机器学习的价值,普林科技有将近一半的工作者是非数据科学出身,公司内部也有专门的培训会,让项目经理充分理解数据和模型的真正含义。


普林科技员工的日常


4.机器学习


在普林科技对面楼下的咖啡馆里,王储隔着窗户看了看路对面的大楼:“看,那是我们的办公室。”


“什么是机器学习?”我抛出了这个菜鸟问题。


王储回过神来,喝了一口果汁,比划起了手势,讲起了这个他所专注的领域。


“让我们想想人脑是怎么学习的。当我们去认识一个苹果,我们会用眼睛去看苹果,左看看、右看看,像是拍了很多照片,见过三五次苹果之后,再放过来一个梨,就知道不是苹果了。对于机器而言,需要人的指令才能去学习,于是我们可以设计算法,像是把大量苹果的照片扔过来,让机器去捕捉特征,学习到底什么特征的才叫做苹果。这样,我们再随便给它一些别的照片,它就能够判断是不是苹果了。再进一步,在实际问题中,比如我们想做风控,判断一个人的信用卡是否会还款。面前有几亿张信用卡信息,我们人脑这个时候已经hold不住了,无法自己判断,但是机器可以做这件事情。机器可以去学习大量的数据,捕捉不同特征的人,什么样子的人会还款,什么样子的人会坏账,这个自动学习的过程,就叫做机器学习。”


“机器可以处理的数据量很大,速度比人脑快。除了快,机器还可以消除人脑的主观局限,比如让你去想,一个30岁的以上的人容易坏账还是一个30岁以下的人容易坏账,在不同地方出生不同家庭背景的人,作出的判断是不一样的。这样的问题你是无法凭借主观大脑去判断的。但机器会排除这些主观因素,非常严禁地去挖掘真实的情况。”


“当然,去理解一个话是什么意思,机器可能不如人脑,但在很多的领域,机器已经做的比人脑好了。机器正在进步。Google就正在做一件事情,有成千上万的视频,目标就是让机器去判断视频之中是否出现了猫。机器发展的速度,是呈指数上升的,现在最好的机器,智商已经可以达到一个婴儿的水平。对于人生而言,一个婴儿的智商和一个成人的智商之间可以差很多;但是一个机器从婴儿智商成长到成人智商,这个速度可以很快。”


放眼全球,面对机器学习和数据科学的大好未来,应用数学、统计学、计算机科学的人都在钻研此领域。为此,王储在普林斯顿读博士的时候,选择了两个指导老师,分别来自应用数学领域和机器学习领域。


当然,校园和市场是截然不同的世界。在学校做科研,人们具有相似的知识背景,交流方便,讨论的问题可以很细致,很发散,什么有趣研究什么。在业界,人们的知识水平和知识领域不一样,交流起来有难度;做的事情也不许发散,而要清晰达到目标。另一方面,在业界面对的问题和学校研究的问题本身也不同。“比如在学校里面,我们会基于1000个人的信用标签去研究。但现在很多人没有这个标签,或者给过来的标签非常乱,已有数据存在各式各样的空白和错误,这都要有专门的数据分析师去做预处理,想办法解决它。”


“所以我们招人的时候,一定要求对方学习能力强。不是说说而已,是真的要学习能力强!”王储笑了。


5.In data we trust


“能不能给我描绘一下你理想中大数据未来的某个画面?”面对这个问题,王储给出了如下回答。


“与人体健康相关的数据非常多,你每体检一次,抽一次血,戴一次智能手表,都会产生数据。这些数据,都可以拿出来帮你判断你的生活状态,比如某些疾病的发病可能。一个癌症病人或许是在癌症出现3个月之后才发现的,也许技术发展到一定程度,癌症发生前3个月,他就应当知道。”


“坦白说,全世界和你各方面条件都非常相似的人,可能有10000个,他们对于你而言,就是10000种不同的可能。你只能活一辈子,但如果你知道了10000种不同的可能,将是一种非常可靠的指导。大数据的模式就是把人们的数据搜集起来,统一做分析处理,把规律研究出来,反过来为每一个个体服务。”


“大数据的市场只会越来越大。我们在美国给一个金融机构做了这种信用模型,也在客户公司做了培训,告诉他们怎么判断谁可能坏账,事实证明非常管用,给客户带来了明显的收益。现在国内金融行业以它为榜样的有两三千家公司,都把美国这个客户当作神一般看待,而这都是我们的市场。”


“第一步,做项目;第二步,出产品;第三步,产生持续的盈利模式。”在王储心中,目前还只是最初阶段,对数据价值深深信仰的他,心中已经有了更远大的蓝图。


“In data we trust. 我们几个同事几乎是同时想到了这句slogan。美国人说In god we trust,但我们信仰数据,相信数据将会带来的无限价值。所以,这个时代对我来讲,是一个非常好的时代。”


6.故事的起点


让我们回到这个故事的起点,单纯如玉璞的少年时代。


16岁,高一,山东的中学校园里课程正紧,男孩王储和女孩王颖斐走到了一起,彼此初恋。


那时学校有十大禁令,犯了就要开除,第一禁令就是不准恋爱。可当时男孩女孩都在搞竞赛为校争光,学校也只好睁一只眼闭一只眼。女孩的成绩比男孩的还好,同学几年男孩只有一次成绩比她高。


高中毕业,女孩更喜欢计算机,来到了北大信科;男孩更爱数学,来到了北大数院。两个人都对机器学习充满热爱,毕业时候,双双飞去了普林斯顿深造。


普林斯顿是一个美若天堂的安静小镇。从艾伦Ÿ图灵,到约翰Ÿ纳什,包容的普林斯顿滋养着无数大科学家和思想者。如果人们想静下心来做事情,这里拥有最能让人静下心来的环境。于是,这对一起走过中学时代、大学时代,一起走向博士时代的恋人,也拥有了真正纯粹无人打扰的一段时光。在那段时光里,艰深的学术之外,男孩喜欢陪女孩逛街,女孩酷爱和男孩一起玩“全世界男人都该玩”的坦克世界。男孩会单簧管,女孩会钢琴,两个人对音乐有着共同的兴趣,并在公寓楼里养了一只猫。


然而,安逸的生活埋不住男孩好奇世界的小火苗。


1920年,从普林斯顿辍学的菲茨杰拉德写出了《天堂的这一侧》,他笔下流淌着这样的描绘:


“午夜过后很久,普林斯顿的塔楼和尖顶仍可以看清——星星点点有几盏晚灭的灯——然后,突然从清澈的黑暗中传来钟声。这里的一切是无穷无尽的梦:往昔的精神滋养了新的一代,从混乱不羁的世界中被挑中的青年仍然浪漫地汲取着死去的政客和诗人犯过的错和忘记的梦。这新的一代,叫嚣着陈旧的呼喊,学习着过去的信条,虚度想入非非的悠长日夜的一代;是注定最终要进到肮脏而灰色的乱世去追寻爱情和骄傲的一代;是比前辈更害怕贫穷更渴望成功的一代;是在成长的岁月中意识到所有的神明都死了,所有的战争都打完了,所有人类的信念都站不住了的一代... ...”


近一个世纪过去,年轻人的世界丝毫未变:我们仍是这样的一代,神明已死,信仰未活。二十出头的年纪,毕业于一流院校的学生都还在追问和挑选着世界留给自己的光明大路。如果不是因为这个小火苗,男孩和女孩闲适的学术生活和二人世界将会按部就班地走下去,安静着,平衡着,走向已知的光明坦途。如果不是因为这个小火苗,此刻男孩不会站在熙攘的中关村,透过北京随时翻起的沙尘,随时准备进入下一个电话会议。


而女孩应该最清楚,男孩虽一路走着精英主义学霸路线,心底不走寻常路的小火苗却始终闪烁着。在信仰缺失的年代,男孩早已找到了自我驱动的原动力。“创造些什么为世界所用”的追求,让男孩总想要完成更多——于是,高中时,别人都在埋头备高考,他跑到全国各地参加数学竞赛;大学时,别人在读书实习,他做了大量科研和建模;博士时,男孩又做出了不同的决定:走出校门,飞回祖国,开创了人生第一份事业。

是的,现如今,男孩王储在北京做普林科技,女孩王颖斐继续在美国读博士。每天早晚各一个电话,多是在王储上下班的路上完成。相伴近十年,两人早已不惧怕这样的昼夜之分和跨海之距。甚至,在普林科技最初成立的时候,女孩给了男孩相当多建议,并亲自参与到公司的装修设计中,办公室的摆设、桌子的颜色……都由女孩一手操办。


此时此刻的北京,数据世界如大山大水,男孩的事业也如江河般从高处迸发飞泻而走向壮阔。而只有男孩心里最清楚,无论走多远,飞多快,在一路特立独行的冲锋之中,女孩始终以一种同行者的形式存在着——存在于高中竞赛的全国周游中,本科建模的通宵深夜中,博士学习的天堂小镇中,回国创业的昼夜呼应中,存在于一个男孩走向成家立业的每一个脚步里——在男孩初长成所需经历的所有挣扎和磨练中,他所获得的,不仅仅是她生活上的陪同,更是她时刻齐步的头脑与精神的共鸣。她的存在,就像是永远准备好了,抵达旁人望尘莫及的判断,供上灵魂深处的给养,带着从未被时光剥离的独特意味,随时给予男孩和他的事业最专业和丰盛的启发。


[完]


附上Xtecher为普林科技拍摄的介绍片。(一睹男神阵容吧)

http://v.qq.com/iframe/player.html?vid=d01536vec75&width=500&height=375&auto=0


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存