如何解构建有人情味的AI应用?如何去定义客观的情感类别?AI教你如何提供情绪价值!《追AI的人》第15期直播回放
《追AI的人》系列直播第15期——AAIG自然语言理解实验室EMNLP专场,分享了《机器=冰冷?看机器如何捕捉你的小情绪》和《文本如药,如何精确提炼“有效成分”?》。
以下为直播的文字回放,分为上下两篇,本文为下篇,共9684计字。
中科院信工所在读博士生,阿里安全智能算法实习小二,主要研究方向为人机对话系统。
01
现有的对话情感分析的数据集,大多数是类别不均衡的。很容易理解,因为我们日常沟通,可能大多数的情况下是没有情感的,有情感的时候是少数,所以自然造成了这个问题天然是一个类别不均衡的现象,这样就导致了小类别的样本。
例如“暴怒”这种情感,情感出现频率比较低,在我们训练过程中,它在一小批次里边很可能见不到自己的同类,在对比学习的场景下,它学习到的表征可能就会较差。
02
部分的数据文本信息含量太低了,称为极端样本,这个是怎么造成的?比如前面提到的我们本领域的几个主流的数据集是在老友记的剧本之上构造的。老友记本身是一个情景剧,那么它在构造数据集的时候是保留了它的音频,视频,还有它的文本。
但是我们是针对文本领域做的研究,没有音频和文本的信息,就会导致部分样本它的情绪在文本上体现的不够充分,一个单独的hello或者hi或者ok这种样本,去预测他的情绪是非常困难的,所以这样就造成一些极端样本,它们对对比学习模型的性能是有负面影响的。
我们具体怎么做的?
● 专题|如何构建行之有效的算法透明《人工智能治理与可持续发展实践白皮书》
● AAIG成立一周年!砥砺前行,谱写新时代的科技之歌~请查收这份最新的自我介绍
● AI治理必修第16刊|国产AI作画神器来了!日增5万用户的背后有什么秘诀?DeepMind攻克50年数学难题!
● 听委员说|AAIG薛晖出席杭州市"两会",提出加快建立人工智能产业的多元协同治理机制
● 文本如药?如何通过多样例学习判断有效成分?如何识别辱骂文本?对话质量分析应用场景?AAIG自然语言理解实验室EMNLP专场(上)
● “算法偏见”是概念炒作吗?「这个AI不太冷」第3期带你揭秘现实AI!
更多人工智能治理和可持续发展好文点击下方名片关注和星标【阿里巴巴人工智能治理与可持续发展研究中心】👇AAIG课代表,获取最新动态就找她