心法利器[37] | bad case治疗术:认知篇
心法利器
本栏目主要和大家一起讨论近期自己学习的心得和体会,与大家一起成长。具体介绍:仓颉专项:飞机大炮我都会,利器心法我还有。
近期,我再次总结了我的历史文章,累积起来有50w字,百余篇文章了,有兴趣可以拿来看看,获取方式:七夕清流,百余篇累计50w字文章合集发布。
往期回顾
bad case修复其实是一个非常考验内功的事情,我也在实践当中尽自己之力去理解和吸收,之前其实我也写过文章来讲bad case,感觉还是比较零散而不够完善(ML&DEV[13] | bad case分析、NLP.TM[22] | 如何修正NLP问题的bad case),在后续的工作和学习中,自己慢慢的形成一些自己的经验,也逐步让这些经验体系流程化,最近一连4篇,给大家介绍一下如何修复bad case,具体的流程如下:
认知篇:介绍bad case分析的背景,给大家树立一个看bad case的意识和尝试。 现状篇:治疗bad case,首先要明确现状,就是现在的技术方案的真实效果如何。 分析篇:我们都知道要开始看bad case了,要怎么看,怎么分析出问题,在篇告诉你。 解决篇:知道病情,知道病因,就该开始治疗了。
当然,我的视角主要从NLP、对话、搜索的角度来看的,对于信息更为复杂的推荐,希望大家在方法论上也能有些收获吧。
本期第一篇,先给大家聊聊bad case分析的背景和认识吧,线让大家知道bad case是什么,我们为什么要分析他。
前言
插一段前言,其实原计划是写3篇就够,认知篇并不在计划之内,后期增加的原因是很多人可能并不理解bad case在整个问题分析中的重要性,因此我觉得有必要在开始讲方法之前先给大家树立基本的概念和观念。
什么是bad case
所谓bad case,是算法领域的一个术语,用于表示在推理阶段产生的与预期不同的结果,例如一个文本分类任务,应该让文本A分为正类,结果算法分成了负类,这就是一条bad case,就算是人类这种高级碳基生物进行预测,也很可能因为走神、认知差异、知识受限等因素出错,而现在并不强大的模型当然也就经常会出现bad case,我们甚至可以说bad case是普遍存在的。
bad case分析的意义
通过基本的指标,分析出我们现在的算法方案的现状可能并不困难,但是怎么“提升效果”,却是很多人很迷茫的问题,这是微观角度,更宏观地讲,如何提升自己解决问题的能力,如何让自己更好更快地解决更多的问题,这个同样让人非常迷茫,我们为了提升自己不断学习各种算法,各种论文,却发现除了模型逐步内卷之外,自己解决问题的能力并没有提升,一个问题试了成千上万的模型却发现提升可谓是杯水车薪,解决问题的天花板变得很低,效果提升也变得很不可控。
私以为,要突破,必定是要做出一个超出当前维度的工作。第一轮在美团的实习,让我知道了大道至简,简单的方案并不比复杂模型的效果差多少,而第二次在OPPO的实习,让我知道了分析bad case是破解问题,探索问题的关键钥匙,关键点分别是这几个:
如果模型效果不好是病,那bad case就是症状,是问题现场留下的线索,足够了解bad case能让你对问题背后的病因有更多的了解,方便对症下药。 bad case分析是我了解业务、了解场景的重要途径,知道当前研究、实践中容易出现的问题,往通俗的说,吸收经验的重要途径。
所以,我个人是非常建议大家多看bad case,多分析bad case,在模型理解和吸收出现瓶颈的时候,多看bad case可能可以拓展你的思路,发现的问题多了自然会产生一些解决方案,创新点、解决问题的能力也会随之增强。
bad case分析的心理关
很多人之所以不去看数据,除了没有这个分析case的意识,很大部分的原因是抵触,包括之前的我在内,主要是这几个原因:
数据多,分析起来很枯燥,时间还很长。 不清楚该怎么分析。
对于问题1,要突破的话我主要说这几个点:
其实不用分析很多,50-100条其实就很能说明问题。 数量看着很多,但我自己做过实验,自己去标结果的话,文本分类500条可能就10来分钟,分析100条bad case可能也是10多分钟,时间并不长对吧,这个时间总比找不到解决方法时痛苦没方向要好吧。 其实整个过程可以不枯燥,因为分析完你就可以触摸到问题的根本了,自己本身也有问题理解的提升,收获很大好吧。
而第二点,有关不知道该怎么分析,我是总结了一套思路方案,认知篇先到着,后续我会给大家介绍我的这套方案,敬请期待~