第四范式戴文渊：AI落地，为什么不能照搬教科书？

From: CSDN App AI科技大本营 2019-10-30

“年少成名”、“天才”，在中国 AI 行业里用这两个词同时形容一个人的牛人不多，第四范式创始人戴文渊位列其中。

在上海交通大学就读本科期间，戴文渊就带领三人团队夺得了 2005 年 ACM 的世界冠军和三个亚洲冠军，并担任ACM竞赛教练指导学生多次获得亚洲冠军，戴文渊在当时被人称为神级存在。而在学术成就上，其论文多次被 NIPS, ICML, AAAI, KDD 等国际顶级学术会议收录，有人形容其发顶级会议如同探囊取物。

在香港科技大学读研期间，戴文渊投身到下一代机器学习技术——迁移学习的研究与探索中，根据 Google Scholar 统计，戴文渊于 2007 年发表的论文《Boosting for Transfer Learning》在迁移学习领域论文引用数至今排名世界第三。

进入业界后，他先是担任百度“凤巢”系统的技术负责人，帮助百度建立机器学习驱动业务的能力，随后在短短三年内就成为最年轻的百度高级科学家、T10 员工，一举扩大了其在业界的广泛知名度。

2013 年，戴文渊入职华为，任华为诺亚方舟实验室主任科学家。那一年，华为进入金融领域的势头正盛，但与其他科技巨头相比其解决方案的赢面并不大。但戴文渊凭借其对技术方案的整体把控能力，最终扭转了局面。而在华为的短暂一年，戴文渊获得了“President Award”。

但这并没有满足戴文渊更大的技术野心。戴文渊是一个害怕被“供养”的闲不住的技术人，而大公司难以提供实现其技术野心的空间。

电影《肖申克的救赎》一句台词说，“有些鸟儿是关不住的，因为它们的羽毛太鲜亮了。”

戴文渊（左）和杨强（右）

2015 年，戴文渊走上创业道路。为了帮助企业拥有整个机器学习的闭环系统，产生智能能力，带着“AI for everyone”的使命，戴文渊和他的老师——香港科技大学教授杨强一起创办了现在的第四范式，他们用机器学习技术对数据进行精准预测与挖掘，帮助企业提升效率、降低风险，获得更大的商业价值。

第四范式立足金融行业，把银行把反欺诈的规则数量从几千条，提升到了 25 亿条规则，由此银行的反欺诈识别准确率提升了数倍。同时，它们也在不断探索人工智能在媒体、医疗、电商等行业的商业及公益应用，与各行业的标杆企业、权威机构展开深度合作。

实际上，这是戴文渊在华为那一年时就在做的事，他要让 AI 变成使用门槛不高的工具，能够让更多地业务人员能够操作 AI。比如他们所开发的 AI 平台去产生类似今日头条或者是快手这样的千人千面的推荐系统，或者提供金融领域的风控模型。

第四范式发布首个人工智能全流程平台“先知”，获得了“吴文俊人工智能科学技术创新奖”的一等奖，这是中国在智能科技领域的最高奖。

一如既往，无论是学生时代，进入大公司还是成为创业者，戴文渊每一次社会身份的转变都稳扎稳打，大跨步前进，但不变的是他对技术变革的深刻理解。

作为第四范式的 CEO，戴文渊的已经不需要负责具体的技术研发工作，但作为人工智能领域的大牛，他对技术的了解和思考似乎从未让他远离研发一线，积累了务实而丰富的 AI 落地经验。

由于 AI 技术的火热发展，很多开发者都通过教科书来学习机器学习。但随着数据、应用环境的不断变化，现在的很多教科书很快在过时，有时，即便是作者本人也很难描述出 AI 技术实践的本质。

在一次内部演讲中，戴文渊就曾指出机器学习教材的七个经典问题。

教材与实际应用有出入，他指出，在实际工业应用中，他们不会完全按照教科书中的方式去实践。虽然他们也会设计很深的模型、很深的决策树、很多的特征、会过拟合一点，但他们更强调按时间拆分，不强调均衡采样。

以特征选择为例。有些教科书会单独开个章节来讲特征选择，告诉技术人员在拿到数据后，要先删除一些不重要的特征，甚至有的教科书注明，特征数不能超过一千，否则模型效果不好。但其实这个结论也是有前提条件的，如果数据量少，是不能够充分支撑很多特征，但如果数据量大，结论就会不一样。所以他们做 Logistic Regression 时会有几十亿个特征，而不是限制在几百个特征。

现在，随着数据量增加，特征量也需要增加。所以在他看来，在大数据环境下，整个机器学习教科书里关于特征选择的章节已经落后于时代，需要根据新的形式重新撰写；当然在小数据场景下，它仍然具有价值。

又比如过拟合的问题。以前如果模型做的太复杂就会过拟合，但现在来看，大多数的实际场景都是在拿过去预测未来，过拟合不一定不好，还是要看具体场景。

戴文渊称，实际上在他们的设计里面，很多时候会倾向于往过拟合靠一点，在拿过去预测未来的应用场景下，有的时候过拟合不一定不好。

所以他认为，技术人员需要学会根据实际场景做出相应灵活判断。

人工智能落地在术的层面，观念层面的纠偏戴文渊已经指出来了，但究竟如何根据应用场景来做出技术调整，他还有哪些 AI 落地还有哪些颠覆行业人士认知的实践经验？

9.6-7 日，作为 AI ProCon 2019 的 Keynote 嘉宾，第四范式创始人、CEO 戴文渊将同来自全球各地的 60 余位 AI 专家和学者，包括亚马逊首席科学家李沐、微软（中国）首席技术官韦青、驭势科技联合创始人&董事长&CEO 吴甘沙、华为诺亚方舟实验室语音语义首席科学家刘群、Google Brain 工程师俞玶等将齐聚一堂，共同研讨人工智能领域最新的技术趋势与最严峻的挑战和难题。

本次大会，我们邀请到来自阿里、华为、Google Brain、Amazon、微软中国、百度、京东、小米、快手、科大讯飞、商汤、旷视、图森、云知声、思必驰等企业和机构的重磅嘉宾，在 Keynote 和机器学习、计算机视觉、自然语言处理、知识图谱、推荐系统、5G 驱动 AIoT、AI 开源、AI+小程序、AI+DevOps 9 大技术论坛上分享硬核 AI 技术。

此外，AI ProCon 2019 邀请到了亚马逊首席科学家@李沐，在大会的前一天（9.5）亲授「深度学习实训营」，通过动手实操，帮助开发者全面了解深度学习的基础知识和开发技巧。

9大技术论坛、60+主题分享，百余家企业、千余名开发者共同相约 2019 AI ProCon！技术驱动产业，聚焦技术实践，倾听大牛分享，和万千开发者共成长。5折优惠票抢购中！

社群福利

扫码添加小助手，回复：大会，加入2019 AI开发者大会福利群，每周一、三、五 更新学习资源、技术福利，还有抽奖活动~

推荐阅读

你点的每个“在看”，我都认真当成了喜欢

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！

这把绝对高端局，只有中国人才懂