FITEE 2021年第5期摘要(含首期“视觉知识专栏”)
视觉知识专栏
主持人:潘云鹤院士、庄越挺教授
1. 视觉知识的五个基本问题
2. 视觉知识:智能创意初探
3. 面向视觉常识推理的有向视觉连接
4. 基于场景自适应概念学习的无监督目标检测
1. Miniaturized five fundamental issues about visual knowledge
浙江大学计算机科学与技术学院人工智能研究所,中国杭州市,310027
https://doi.org/10.1631/FITEE.2040000
2. Visual knowledge: an attempt to explore machine creativity
2. Visual knowledge: an attempt to explore machine creativity
浙江大学计算机科学与技术学院人工智能研究所,中国杭州市,310027
https://doi.org/10.1631/FITEE.2100116
3. Visual commonsense reasoning with directional visual connections
韩亚洪1,2,武阿明1,朱霖潮3,杨易3
https://doi.org/10.1631/FITEE.2000722
4. Unsupervised object detection with scene-adaptive concept learning
浦世亮1,赵暐1,陈伟杰1,杨世才1,谢迪1,潘云鹤2
https://doi.org/10.1631/FITEE.2000567
5. Deep 3D reconstruction: methods, data, and challenges
1北京工业大学信息学部北京人工智能研究院,多媒体与智能软件技术北京市重点实验室,中国北京市,100124
2悉尼大学计算机科学学院多媒体实验室,澳大利亚新南威尔士州悉尼市,2006
摘要:三维形状重建是计算机视觉、计算机图形学、模式识别和虚拟现实等领域的重要研究课题。现有三维重建方法通常存在两个瓶颈:(1)它们涉及多个人工设计阶段,导致累积误差,且难以自动学习三维形状的语义特征;(2)它们严重依赖图像内容和质量,以及精确校准的摄像机。因此,这些方法的重建精度难以提高。基于深度学习的三维重建方法通过利用深度网络自动学习低质量图像中的三维形状语义特征,克服了这两个瓶颈。然而,这些方法具有多种体系框架,但是至今未有文献对它们作深入分析和比较。本文对基于深度学习的三维重建方法进行全面综述。首先,基于不同深度学习模型框架,将基于深度学习的三维重建方法分为4类:递归神经网络、深自编码器、生成对抗网络和卷积神经网络,并对相应方法作详细分析。其次,详细介绍上述方法常用的4个代表性数据库。再次,对基于深度学习的三维重建方法进行综合比较,包括不同方法在同一数据库、同一方法在不同数据库以及同一方法对于不同视角个数输入的结果比较。最后,讨论了基于深度学习的三维重建方法的发展趋势。
关键词:深度学习模型;三维重建;循环神经网络;深度自编码器;生成对抗网络;卷积神经网络
https://doi.org/10.1631/FITEE.2000068
6. Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving
王云鹏,郑坤贤,田大新,段续庭,周建山
摘要:基于人定规则所设计的自动驾驶系统可能会因大规模相互耦合的规则而变得越来越复杂,因此许多研究人员致力于探索基于学习的解决方案。强化学习(reinforcement learning,RL)因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而,基于强化学习的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据,然后模型才能达到合理的性能要求,这使得基于强化学习的模型不适用于现实环境,尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习(asynchronous supervised learning,ASL)方法,以解决在实际环境中训练基于强化学习模型时初始性能差的问题。具体而言,通过在多个驾驶演示数据集上并行且异步执行多个监督学习过程,在异步监督学习预训练阶段引入先验知识。经过预训练后,模型将被部署到真实车辆上进一步开展强化学习训练,以适应实际环境并不断突破性能极限。本文在赛车模拟器TORCS(The Open Racing Car Simulator)上对所提出的预训练方法进行评估,以验证该方法在改善强化学习训练阶段端到端自动驾驶模型的初始性能和收敛速度方面足够可靠。此外,建立一个实车验证系统,以验证所提预训练方法在实车部署中的可行性。仿真结果表明,在有监督的预训练阶段使用一些演示,可以显著提高强化学习训练阶段的初始性能和收敛速度。
关键词:自主驾驶;自动驾驶车辆;强化学习;监督学习
https://doi.org/10.1631/FITEE.1900637
7. Dynamic value iteration networks for the planning of rapidly changing UAV swarms
1浙江大学航空航天学院,中国杭州市,310027
2浙江大学计算机科学与技术学院,中国杭州市,310027
8. Latent discriminative representation learning for speaker recognition
1江苏大学计算机科学与通信工程学院,中国镇江市,212013
2江苏省工业网络空间安全技术重点实验室,中国镇江市,212013
摘要:从语音信号中提取特定说话人的可区分性表征,并将其转换为固定长度的向量是说话人识别和验证系统的关键步骤。提出一种潜在的可区分性表征学习方法,用于说话人识别。我们认为所学表征不仅具有可区分性,还具有相关性。具体来说,引入附加说话人嵌入查找表以探索同一说话人不同语音之间的相关性。此外,引入一个重构约束用于学习线性映射矩阵,使表征更具可区分性。实验结果表明,所提方法在INTERSPEECH2019会议的Fearless Step Challenge挑战赛的Apollo数据集和TIMIT数据集上的性能优于目前最先进方法。
关键词:说话人识别;潜在可区分性表征学习;说话人嵌入查找表;线性映射矩阵
https://doi.org/10.1631/FITEE.1900690
9. A partition approach for robust gait recognition based on gait template fusion
哈尔滨工程大学智能科学与工程学院,中国哈尔滨市,150001
https://doi.org/10.1631/FITEE.2000377
10. Event-based H∞ control for piecewise-affine systems subject to actuator saturation
江南大学轻工过程先进控制教育部重点实验室,中国无锡市,214122
https://doi.org/10.1631/FITEE.1900601
11. A descent method for the Dubins traveling salesman problem with neighborhoods
流体动力与机电系统国家重点实验室,浙江大学航空航天学院,中国杭州市,310027
https://doi.org/10.1631/FITEE.2000041
12. A fuzzy integrated congestion-aware routing algorithm for network on chip
1伊斯兰阿扎德大学Shahr-e-Qods分校计算机工程系,伊朗德黑兰市
2伊斯兰阿扎德大学科学与研究分校计算机体系结构系,伊朗德黑兰市
https://doi.org/10.1631/FITEE.2000069
13. Passive mode-locked Er-doped fiber laser pulse generation based on titanium disulfide saturable absorber
1山东师范大学物理与电子科学学院山东省光学与光子器件重点实验室,山东省光场调控及应用中心,中国济南市,250358
2山东理工大学物理与光电工程学院,中国淄博市,255049
3山东师范大学物理与电子科学学院山东省医学物理图像处理技术重点实验室,中国济南市,250358
4山东师范大学物理与电子科学学院山东省大健康精准医疗产业技术研究院,中国济南市,250358
https://doi.org/10.1631/FITEE.2000341
每篇文章的精要导读将陆续放送,敬请关注。