作为普通NLP科研人员对ChatGPT的一些思考
根据媒体报道,ChatGPT全球用户数已经突破了一百万,早早火出了圈。我朋友圈里的做金融的、做健身教练的、做英语培训的,都玩起了ChatGPT,我一个做NLP的,却迟迟没有去体验,主要是因为有一种疲惫感,热点太多了跟不上了。昨天终于觉得,如果再不体验一下,就真的落伍了,无奈国内无法注册,于是找了人在美国刚下飞机的好哥们要了一个手机号,终于顺利注册。一些NLP任务的测试其实测试之前,早已经在知乎被耳濡目染,知道这玩意儿是个“怪物”,什么基础的问答、写诗、写程序、玩游戏啥都会。但亲自体验一下,还是感觉很不一样的。网上的测试,更多还是闲聊,但这种闲聊实际上意义不大,说的再通顺,我也不惊讶。作为一个NLP研究人员,更关心一些NLP任务的解决情况,于是我针对自己感兴趣的一些任务,做了一些测试:关键信息抽取(NER、事件抽取、关键词提取):药物NER:关键词抽取:在多轮对话中进行事件抽取:这些任务的效果相当好,而且格式十分规范。简单推理任务NLI任务:这种简单的NLI任务还是完全可以胜任的。但给一些涉及简单数学推理的,可能就在一本正经的瞎推理了:写作辅助写作辅助这个效果,真滴完美。我这最近开发的GENIUS模型,顿时显得十分弱鸡,甚至我目前看到的绝大多数开源写作辅助模型,都黯然失色了。。。需要一定知识储备的开放域问答比方我问它怎么做糖醋带鱼:还真像模像样地给你一个个步骤,但仔细一看,其实并不靠谱,我没见过谁做带鱼还需要焯水的,所以炒菜建议不要参考ChatGPT哈哈,后果人家可不负责任的...很明显,训练数据中包含了大量这样的网上教程,所以这里也可以这样一步一步地给你写出来,因此生成的文本在格式上十分规范。主观问题一定回答的很圆滑,可能存在的一定的模板相信很多朋友也发现了,但凡问一些主观的问题、找茬的问题,它基本一定给你回答的很圆滑,严丝合缝的,不给你留下把柄。比方这两个例子:主观问题一定严丝合缝主观问题一定严丝合缝然后我发现训练语料中应该存在典型的模板,导致一些回答看起来像模像样,但实际上就是“纯废话”,比如我问这个对各个国家的疫情防控的评价(最后一个问题是彩蛋🥚):真的懂写代码吗?网上很多人发ChatGPT可以直接写神经网络等高级算法,很牛皮对吧,那我们测一个简单的程序,而且网上有很多教程的程序——画爱心:诶,牛逼,像模像样给我写了一段,那咱们跑跑看?居然还真的bug-free,但是生成的结果:有亿点丑啊,而且为啥是个双层爱心?我们回头仔细看看代码就发现问题了,在画爱心的轮廓的时候,实际上画错了,所以在填色的时候,就出现了这种诡异的爱心。。。但怎么说呢,已经给出了这样的程序,我们自己也可以很方便地改一改就可以用了。其实一个问题可以让ChatGPT重新生成回答的,所以我重新生成了一次,这一次,呃。。。:所以可以明确的说,ChatGPT肯定是不懂它写的到底是个啥的,但是由于训练语料中包含了大量的程序,而且我们一般能想到的问题,都是互联网上存在的,那么ChatGPT就可以给你“搬出来”,或者给你把互联网上已有的信息“糅合”一下吐出来。所以那些营销号一天到晚上取代这个取代那个,甚至取代程序员,实在是扯淡,这种基于QA训练出来的模型,能力的上限依然是已有的知识的重新输出,如果你网上查都查不到,也不要指望ChatGPT能帮你做出来。所以,用来帮忙debug,也许是可以的,但stackoverflow上一定也有对应的答案;用来帮忙写算法,也许也是可以的,但更多的是给一个参考,从而帮我们更快上手。一个普通NLP研究者感到的迷茫一味地吹捧ChatGPT的强大能力,和对ChatGPT各种找茬找毛病,属于两种极端,都不利于思考。ChatGPT的强大,也不会导致我们任何人失业;我们找出再多ChatGPT的bad
2022年12月7日