查看原文
其他

​康孟珍副研究员团队:基于语义融合与模型蒸馏的农业实体识别(2021年第1期)

李亮德等 智慧农业期刊 2023-01-05


引用格式:李亮德, 王秀娟, 康孟珍, 华净, 樊梦涵. 基于语义融合与模型蒸馏的农业实体识别[J]. 智慧农业(中英文), 2021, 3 (1): 118-128.
LI Liangde, WANG Xiujuan, KANG Mengzhen, HUA Jing, FAN Menghan. Agricultural named entity recognition based on semantic aggregation and model distillation[J]. Smart Agriculture, 2021, 3 (1): 118-128.

点击直达知网阅读



点击直达期刊官网阅读(全文,免费)








基于语义融合与模型蒸馏的农业实体识别

李亮德1,2, 王秀娟1,3, 康孟珍1,2*, 华净1,4, 樊梦涵1,2
(1.中国科学院自动化研究所 复杂系统管理与控制国家重点实验室,北京 100190;2.中国科学院大学 人工智能学院,北京 100049;3.北京智能化技术与系统工程技术研究中心,北京100190;4.青岛中科慧农科技有限公司,山东青岛 266000)

摘要:当前农业实体识别标注数据稀缺,部分公开的农业实体识别模型依赖手工特征,实体识别精度低。虽然有的农业实体识别模型基于深度学习方法,实体识别效果有所提高,但是存在模型推理延迟高、参数量大等问题。本研究提出了一种基于知识蒸馏的农业实体识别方法。首先,利用互联网的海量农业数据构建农业知识图谱,在此基础上通过远程监督得到弱标注语料。其次,针对实体识别的特点,提出基于注意力的BERT层融合模型(BERT-ALA),融合不同层次的语义特征;结合双向长短期记忆网络(BiLSTM)和条件随机场CRF,得到BERT-ALA+BiLSTM+CRF模型作为教师模型。最后,用BiLSTM+CRF模型作为学生模型蒸馏教师模型,保证模型预测耗时和参数量符合线上服务要求。在本研究构建的农业实体识别数据集以及两个公开数据集上进行实验,结果显示,BERT-ALA+BiLSTM+CRF模型的macro-F1相对于基线模型BERT+ BiLSTM+CRF平均提高1%。蒸馏得到的学生模型BiLSTM+CRF的macro-F1相对于原始数据训练的模型平均提高3.3%,预测耗时降低了33%,存储空间降低98%。试验结果验证了基于注意力机制的BERT层融合模型以及知识蒸馏在农业实体识别方面具有有效性。
关键词:远程监督;农业知识图谱;农业问答系统;实体识别;知识蒸馏;深度学习;BERT;双向长短期记忆网络


文章图表

注:Wiki为互联网上的多人协作的写作系统

图1 农业实体识别系统架构图

Fig.1  Architecture of agriculture named entity recognition

图2 BERT架构图

Fig. 2  Architecture of BERT

图3 BERT-ALA+BiLSTM+CRF架构图

Fig. 3  Architecture of BERT-ALA+BiLSTM+CRF


表1 三种基线模型macro-F1对比

Table 1  Comparison of macro-F1 with three baseline models

表2 层融合机制有效性验证结果

Table 2  Validation of layer aggregation mechanism

表3 学生模型与教师模型macro-F1对比

Table 3  Comparison of macro-F1 with teacher model and student model

来源:《智慧农业(中英文)》2021年第1期

转载请联系编辑部授权


通讯作者简介


康孟珍 副研究员

康孟珍,博士,中科院自动化研究所复杂系统管理与控制国家重点实验室,副研究员。担任中国自动化学会理事、中国自动化学会智慧农业专委会委员、IEEE Systems, Man, and Cybernetics Society (SMC)社会计算专委会委员。曾任青岛智能产业技术研究院常务副院长兼平行农业技术创新中心主任。获2015年青岛市第十届青年科技奖。曾先后在法国国家信息与自动化研究院(INRIA)和荷兰瓦赫宁根大学进行博士后研究。多年来从事智慧农业、计算植物等方向的工作。在智慧农业方面,带领团队研发了道田云-农业种植智能服务平台。在计算植物方面,基于中法合作提出了通用的植物生长模型青园(GreenLab)。承担科技部863、国家自然科学基金委课题及子课题、企业产学研合作课题等十余项。作为大会主席分别于2012和2016年举办了IEEE植物生长建模与可视化国际会议。发表论文80余篇,其中SCI/EI索引论文40余篇。授权发明专利16项,软件著作权20余项。

本期支持单位




Supporters

京蓝云智物联网技术有限公司

浙江臻善科技股份有限公司



推荐阅读


叶进教授团队:面向植物病害识别的卷积神经网络精简结构Distilled-MobileNet模型(2021年第1期)


杨福增教授团队:面向果园多机器人通信的AODV路由协议改进设计与测试(2021年第1期)


李燕等:基于轮廓坐标系转换拟合的柚子果形检测分级方法(2021年第1期)


朱超等:基于超体素聚类和局部特征的玉米植株点云雄穗分割(2021年第1期)





微信交流服务群

为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。入群方法:加小编微信331760296备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。




信息发布

科研团队介绍及招聘信息、学术会议及相关活动的宣传推广

求点赞每增加1个赞,小编绩效加5毛钱

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存