卢沙野大使接受法国LCI电视台直播专访

【少儿禁】马建《亮出你的舌苔或空空荡荡》

外交部迅速反应:严正抗议美冻结全国人大14位副委员长资产,中方将反制

达赖叛逃时把人皮、头骨法器都送给了谁(胆小慎入)

列宁会如何看待宝马MINI“冰淇淋事件”

生成图片,分享到微信朋友圈

自由微信安卓APP发布,立即下载! | 提交文章网址
查看原文

202306B 算法,模型还是数据?

吴双 吴言吴语 2023-02-13

最近chatGPT成功出圈,一边是微软对OpenAI的100亿美金投资,Bing和Office紧接着官宣基于chatGPT的功能上线,让已经习惯躺在广告印钞机的谷歌惊醒,创始人重回公司,紧急应对。另一边国内外吃瓜群众迅速给OpenAI带来超过一亿的用户数,微信小程序满天飞,国内科技大佬们也high了,上亿美金开始行动,唯恐入局不及。

今天不谈chatGPT,网上的分析文章已经很多了,我们谈谈深度学习背后的一些基本逻辑。

很多年以前,当cybernetics和人工智能刚刚起步的时候,我们对智能的想象是一个由代码描述的算法,由聪明的人发现或者发明,然后就可以用来不断解决对应的问题。从这样的角度,算法是静态的,不是来自基于数据的训练,而是来自专家的智慧;算法的好坏主要由它内部的逻辑决定, 复杂的问题需要复杂逻辑的算法,复杂逻辑来自于人的思考。在那个时候,算法和模型概念可以认为是同一件事,数据的角色还不存在。

后来的几十年,符号主义,专家系统你方唱罢,我方登场,直到八十年代,终于基于反向传播的神经网络训练和统计学习理论开始登上历史舞台,我们不再企图直接把人类智慧变成具体解决问题的算法,而是用数据来训练算法,人需要做的是构造这个学习的过程。这时我们可以开始区分算法和模型,算法基于数据训练获得模型。打一个比方,算法是模板,基于数据训练模型的过程就是在模板中选定参数的值,获得一个模型。所以模型具体解决问题,算法负责从数据生产模型。

经过八九十年代这一波,我们认识到智能和学习不可分割,虽然智能是我们关心的结果,但获得智能的途径必须是学习。可惜这时候计算机行业的发展才刚刚开始加速,算力和数据都不能很好支持学习驱动的人工智能研究,虽然很多好的想法都已经出现,但实际效果很有限。想想看,1993年第一代人脸识别数据集FERET发布的时候,一共有1199个人的14126张照片,每张照片分辨率大概是300*100像素左右。十年后Li Fei-Fei教授博士期间发布的Caltech 101数据集一共有101个物体类别的9146张照片,分辨率是300*200像素。根据wikipedia(https://en.wikipedia.org/wiki/FLOPS),在2000年每GigaFLOPS需要硬件成本$600-1000,仅仅三年前的1997年这个数字是$30000,而2022年基于RTX 4090这个数字是$0.02!

所以在二十年前,即使有当前的算法,我们既没有足够的数据,也没有便宜的算力来支撑深度学习。贝叶斯告诉我们,当没有办法从数据获得好的似然函数,我们只能把注意力集中在模型先验上,所以你可以看到当时大家手动设计特征(SIFT/SURF),模型结构(Deformable Part Model),都是在把尽可能多的领域专家经验注入模型中。Yann LeCun说深度学习让我们放弃了这些,其实是ImageNet和GPU的出现让我们不再需要这些。

十年前,AlexNet让我们认识到可学习的神经网络算法遇到足够的数据和算力,就"一朝化龙“”,产生令人惊艳的效果,深度学习就此诞生,下图在当时颇为流行:

Rich Sutton说:"The biggest lesson that can be read from 70 years of AI research is that general methods that leverage computation are ultimately the most effective, and by a large margin. The ultimate reason for this is Moore's law, or rather its generalization of continued exponentially falling cost per unit of computation.",所以AI发展的动力中最根本的是计算规模。智能来自学习,学习的基础是计算,算的越多学的越多越智能。

最近两年出来个新概念:data-centric AI,认为我们以前是model-centric,现在应该把更多的注意力放在数据上。但是对做过工业界AI应用的人来说,这就是一句正确的废话。在工业界,算法工程师如果没有花80-90%的时间在数据上,一定是出了问题。记得数据科学家的第一课就是:“how much time do data scientists spend cleaning data?80%”,这也是十年前的老梗了。

AI研究的突破可遇不可求,CNN, Transformer这样的工作十年难得一见,剩下的时间算法工程师的工作还要继续,少花点时间在最新paper中的trick,用最“笨”但是最可靠的方法做事情才是工程师的风格。

所谓“重剑无锋,大巧不工”,历史不断在告诉我们,用学习,用数据,用人类反馈我们才能把智能复制到人脑之外的机器上,所以在遇到挑战的时候,下注在数据和算力规模上,而不是“精巧”的算法,总是更好的选择。

Tesla和OpenAI笑而不语。


文章有问题?点此查看未经处理的缓存