第四范式戴文渊:AI落地,为什么不能照搬教科书?
“年少成名”、“天才”,在中国 AI 行业里用这两个词同时形容一个人的牛人不多,第四范式创始人戴文渊位列其中。
在上海交通大学就读本科期间,戴文渊就带领三人团队夺得了 2005 年 ACM 的世界冠军和三个亚洲冠军,并担任ACM竞赛教练指导学生多次获得亚洲冠军,戴文渊在当时被人称为神级存在。而在学术成就上,其论文多次被 NIPS, ICML, AAAI, KDD 等国际顶级学术会议收录,有人形容其发顶级会议如同探囊取物。
在香港科技大学读研期间,戴文渊投身到下一代机器学习技术——迁移学习的研究与探索中,根据 Google Scholar 统计,戴文渊于 2007 年发表的论文《Boosting for Transfer Learning》在迁移学习领域论文引用数至今排名世界第三。
进入业界后,他先是担任百度“凤巢”系统的技术负责人,帮助百度建立机器学习驱动业务的能力,随后在短短三年内就成为最年轻的百度高级科学家、T10 员工,一举扩大了其在业界的广泛知名度。
2013 年,戴文渊入职华为,任华为诺亚方舟实验室主任科学家。那一年,华为进入金融领域的势头正盛,但与其他科技巨头相比其解决方案的赢面并不大。但戴文渊凭借其对技术方案的整体把控能力,最终扭转了局面。而在华为的短暂一年,戴文渊获得了“President Award”。
但这并没有满足戴文渊更大的技术野心。戴文渊是一个害怕被“供养”的闲不住的技术人,而大公司难以提供实现其技术野心的空间。
电影《肖申克的救赎》一句台词说,“有些鸟儿是关不住的,因为它们的羽毛太鲜亮了。”
2015 年,戴文渊走上创业道路。为了帮助企业拥有整个机器学习的闭环系统,产生智能能力,带着“AI for everyone”的使命,戴文渊和他的老师——香港科技大学教授杨强一起创办了现在的第四范式,他们用机器学习技术对数据进行精准预测与挖掘,帮助企业提升效率、降低风险,获得更大的商业价值。
第四范式立足金融行业,把银行把反欺诈的规则数量从几千条,提升到了 25 亿条规则,由此银行的反欺诈识别准确率提升了数倍。同时,它们也在不断探索人工智能在媒体、医疗、电商等行业的商业及公益应用,与各行业的标杆企业、权威机构展开深度合作。
实际上,这是戴文渊在华为那一年时就在做的事,他要让 AI 变成使用门槛不高的工具,能够让更多地业务人员能够操作 AI。比如他们所开发的 AI 平台去产生类似今日头条或者是快手这样的千人千面的推荐系统,或者提供金融领域的风控模型。
第四范式发布首个人工智能全流程平台“先知”,获得了“吴文俊人工智能科学技术创新奖”的一等奖,这是中国在智能科技领域的最高奖。
一如既往,无论是学生时代,进入大公司还是成为创业者,戴文渊每一次社会身份的转变都稳扎稳打,大跨步前进,但不变的是他对技术变革的深刻理解。
作为第四范式的 CEO,戴文渊的已经不需要负责具体的技术研发工作,但作为人工智能领域的大牛,他对技术的了解和思考似乎从未让他远离研发一线,积累了务实而丰富的 AI 落地经验。
由于 AI 技术的火热发展,很多开发者都通过教科书来学习机器学习。但随着数据、应用环境的不断变化,现在的很多教科书很快在过时,有时,即便是作者本人也很难描述出 AI 技术实践的本质。
在一次内部演讲中,戴文渊就曾指出机器学习教材的七个经典问题。
教材与实际应用有出入,他指出,在实际工业应用中,他们不会完全按照教科书中的方式去实践。虽然他们也会设计很深的模型、很深的决策树、很多的特征、会过拟合一点,但他们更强调按时间拆分,不强调均衡采样。
以特征选择为例。有些教科书会单独开个章节来讲特征选择,告诉技术人员在拿到数据后,要先删除一些不重要的特征,甚至有的教科书注明,特征数不能超过一千,否则模型效果不好。但其实这个结论也是有前提条件的,如果数据量少,是不能够充分支撑很多特征,但如果数据量大,结论就会不一样。所以他们做 Logistic Regression 时会有几十亿个特征,而不是限制在几百个特征。
现在,随着数据量增加,特征量也需要增加。所以在他看来,在大数据环境下,整个机器学习教科书里关于特征选择的章节已经落后于时代,需要根据新的形式重新撰写;当然在小数据场景下,它仍然具有价值。
又比如过拟合的问题。以前如果模型做的太复杂就会过拟合,但现在来看,大多数的实际场景都是在拿过去预测未来,过拟合不一定不好,还是要看具体场景。
戴文渊称,实际上在他们的设计里面,很多时候会倾向于往过拟合靠一点,在拿过去预测未来的应用场景下,有的时候过拟合不一定不好。
所以他认为,技术人员需要学会根据实际场景做出相应灵活判断。
人工智能落地在术的层面,观念层面的纠偏戴文渊已经指出来了,但究竟如何根据应用场景来做出技术调整,他还有哪些 AI 落地还有哪些颠覆行业人士认知的实践经验?
9.6-7 日,作为 AI ProCon 2019 的 Keynote 嘉宾,第四范式创始人、CEO 戴文渊将同来自全球各地的 60 余位 AI 专家和学者,包括亚马逊首席科学家李沐、微软(中国)首席技术官韦青、驭势科技联合创始人&董事长&CEO 吴甘沙、华为诺亚方舟实验室语音语义首席科学家刘群、Google Brain 工程师俞玶等将齐聚一堂,共同研讨人工智能领域最新的技术趋势与最严峻的挑战和难题。
本次大会,我们邀请到来自阿里、华为、Google Brain、Amazon、微软中国、百度、京东、小米、快手、科大讯飞、商汤、旷视、图森、云知声、思必驰等企业和机构的重磅嘉宾,在 Keynote 和机器学习、计算机视觉、自然语言处理、知识图谱、推荐系统、5G 驱动 AIoT、AI 开源、AI+小程序、AI+DevOps 9 大技术论坛上分享硬核 AI 技术。
此外,AI ProCon 2019 邀请到了亚马逊首席科学家@李沐,在大会的前一天(9.5)亲授「深度学习实训营」,通过动手实操,帮助开发者全面了解深度学习的基础知识和开发技巧。
社群福利
扫码添加小助手,回复:大会,加入2019 AI开发者大会福利群,每周一、三、五 更新学习资源、技术福利,还有抽奖活动~
推荐阅读
最前沿:堪比E=mc2,Al-GA才是实现AGI的指标性方法论?
开源之战
别再造假数据了,来试试Faker这个库吧!
国外大神制作的超棒NumPy可视化教程
突发!Python再次第一,Java和C下降,凭什么?
白话中台战略:中台是个什么鬼?
伟创力回应扣押华为物资;谷歌更新图片界面;Python 3.8.0b3 发布 | 极客头条
沃尔玛也要发币了,Libra忙活半天为他人做了嫁衣?
知名饮料制造商股价暴涨500%惊动FBI,只因在名字中加入了"区块链" ?