封面故事 | AI看图说话,智慧图解春意
点击中国图象图形学报→主页右上角菜单栏→设为星标
造物无言却有情 每于寒尽觉春生
千红万紫安排着 只待春雷每一声
——清·张维屏
今天图图带大家阅读《中国图象图形学报》2020年第2期封面论文《融合约束学习的图像字幕生成方法》,成果来自合肥工业大学计算机与信息学院刘学亮老师团队。
题目:融合约束学习的图像字幕生成方法
作者:杜海骏,刘学亮
关键词:图像字幕生成;约束学习;强化学习;生成式对抗网络;融合训练
引用格式:杜海骏, 刘学亮. 2020. 融合约束学习的图像字幕生成方法. 中国图象图形学报, 25(2): 333-342.
[DOI: 10.11834/jig.190222]
全文链接:
http://www.cjig.cn/html/jig/2020/2/20200211.htm
纪录片《四季·春天》片段
图像字幕生成是涉及计算机视觉和自然语言处理的热门研究技术。其任务是生成一段给定的图像文本描述语句,准确地表达出图像中的物体及其相互关系,在语法和用词上要尽可能接近人类标准。
首先,要让计算机识别出图像中所包含的元素,从物体的大小、颜色到类型、纹理等特征。接着,基于识别出的图片特征,生成符合图片内容的描述语句。
针对图像字幕生成方法结果存在语句描述不准确、缺乏连贯性的问题,提出一种基于编码器-解码器框架和生成式对抗网络的融合训练新方法。通过对生成字幕整体和局部分别进行优化,提高生成句子的准确性和连贯性。
图像字幕生成网络
具体包括以下三个部分:
鉴于ResNet-152在图像分类任务上的优良表现,使用基于该网络结构的图像特征提取模块对原始图像进行特征提取。
训练中,在原残差网络的基础上将网络最后一层替换为一个全连接层,使网络的输出结果变为一个512维的向量。
02监督学习语法约束模块模型训练过程中,通过比较真实样本和生成样本之间的差异调整模型的优化方向,使模型输出的概率分布向真实数据分布逼近。模型每个时刻都会得到一个单词向量作为输入,将LSTM单元每个时刻输出的隐向量作为模型每个时刻的输出。
真实字幕作为模型每个时刻的输入,降低误差累积的影响,通过这种训练方式让模型更加准确地学习到单词之间的语法规则,增加生成字幕的连贯性。
03GAN和强化学习奖励优化模块该模块重点改善了生成字幕整体的质量。以生成式对抗网络为主体结合强化学习方法,通过生成器和判别器的对抗训练提高模型的性能。
模型训练过程中将上一时刻的输出作为当前时刻的输入,生成器依据判别器预测的得分计算梯度值,由于预测的得分是连续数值,有效避免了梯度消失的问题。同时通过调节权重参数控制网络优化过程中对生成字幕的局部和全局关注度,让网络可以更加有针对性的对生成字幕进行优化。
The bird has a
small bill that
is black
and white.
The flowers have pink petals and yellow shading.
第一作者:杜海骏,硕士研究生,主要研究为向为机器学习、图像字幕生成。
E-mail:duhaijun@mail.hfut.edu.cn
通信作者:刘学亮,副教授,主要研究方向为多媒体信息检索。
E-mail:Liuxueliang1982@gmail.com
全民抗疫我倡议
大疫可以阻隔我们走进教室
却不能阻挡我们学习的脚步
加倍努力
专注学业
奋力前行
不负韶华
为了梦想,加油!
成就最美的自己!
如果您有故事想倾诉,有问题想询问,有经验想分享,欢迎添加下方学报小编微信。
本文系《中国图象图形学报》独家稿件
内容仅供学习交流
版权属于原作者
欢迎大家关注转发!
编辑:韩小荷
指导:梧桐君
审校:夏薇薇
总编辑:肖 亮
声 明
欢迎转发本号原创内容,任何形式的媒体或机构未经授权,不得转载和摘编。授权请在后台留言“机构名称+文章标题+转载/转发”联系本号。转载需标注原作者和信息来源为《中国图象图形学报》。本号转载信息旨在传播交流,内容为作者观点,不代表本号立场。未经允许,请勿二次转载。如涉及文字、图片等内容、版权和其他问题,请于文章发出20日内联系本号,我们将第一时间处理。《中国图象图形学报》拥有最终解释权。
与你同在
前沿 | 观点 | 资讯 | 独家
电话:010-58887030/7035/7418
网站:www.cjig.cn