查看原文
其他

FITEE 2021年第5期摘要(含首期“视觉知识专栏”)

编辑部 信息与电子工程前沿FITEE 2022-10-01

【FITEE 2021年第5期推出“视觉知识专栏”,由潘云鹤院士、庄越挺教授联合主持。首期4篇文章,来自潘云鹤院士、庄越挺教授、天津大学韩亚洪教授团队和海康威视研究院浦世亮博士团队。】

视觉知识专栏

主持人:潘云鹤院士、庄越挺教授


1. 视觉知识的五个基本问题

2. 视觉知识:智能创意初探

3. 面向视觉常识推理的有向视觉连接

4. 基于场景自适应概念学习的无监督目标检测


1. Miniaturized five fundamental issues about visual knowledge

视觉知识的五个基本问题
潘云鹤

浙江大学计算机科学与技术学院人工智能研究所,中国杭州市,310027


摘要:认知心理学早已指出,人类知识记忆中的重要部分是视觉知识,被用来进行形象思维。因此,基于视觉的人工智能(AI)是AI绕不开的课题,且具有重要意义。本文继《论视觉知识》一文,讨论与之相关的5个基本问题:(1)视觉知识表达;(2)视觉识别;(3)视觉形象思维模拟;(4)视觉知识的学习;(5)多重知识表达。视觉知识的独特优点是具有形象的综合生成能力,时空演化能力和形象显示能力。这些正是字符知识和深度神经网络所缺乏的。AI与计算机辅助设计/图形学/视觉的技术联合将在创造、预测和人机融合等方面对AI新发展提供重要的基础动力。视觉知识和多重知识表达的研究是发展新的视觉智能的关键,也是促进AI 2.0取得重要突破的关键理论与技术。这是一块荒芜、寒湿而肥沃的“北大荒”,也是一块充满希望值得多学科合作勇探的“无人区”。

关键词:视觉知识表达;视觉识别;视觉形象思维模拟;视觉知识学习;多重知识表达

https://doi.org/10.1631/FITEE.2040000



2. Visual knowledge: an attempt to explore machine creativity

视觉知识:智能创意初探
庄越挺,汤斯亮

浙江大学计算机科学与技术学院人工智能研究所,中国杭州市,310027


摘要:长期以来困扰人工智能领域的一个问题是:人工智能是否具有创造力,或者说,算法的推理过程是否可以具有创造性。本文从思维科学的角度探讨人工智能创造力的问题。首先,列举形象思维推理的相关研究;然后,重点介绍一种特殊的视觉知识表示形式,即视觉场景图;最后,详细介绍视觉场景图构造问题与潜在应用。所有证据表明,视觉知识和视觉思维不仅可以改善当前人工智能任务的性能,而且可以用于机器创造力的实践。

关键词:思维科学;形象思维推理;视觉知识表达;视觉场景图

https://doi.org/10.1631/FITEE.2100116



3. Visual commonsense reasoning with directional visual connections

面向视觉常识推理的有向视觉连接

韩亚洪1,2,武阿明1,朱霖潮3,杨易3

1天津大学智能与计算学部,中国天津市,300350
2天津市机器学习重点实验室,天津大学,中国天津市,300350
3悉尼科技大学计算机学院,澳大利亚悉尼市,2007

摘要:为推动认知层面视觉内容理解的研究,即基于视觉细节的深入理解做出精确推理,视觉常识推理的概念被提出。相比仅需模型正确回答问题的传统视觉问答,视觉常识推理不仅需要模型正确地回答问题,还需给出相应解释。最近关于人类认知的研究指出大脑认知可以看作局部神经元连接的全局动态集成,有助于解决特定的认知任务。受其启发,本文提出有向连接网络。通过使用问题和答案的语义来情景化视觉神经元从而动态重组神经元连接,以及借助方向信息增强推理能力,所提方法能有效实现视觉常识推理。具体地,首先开发一个GraphVLAD模块来捕捉能够充分表达视觉内容相关性的视觉神经元连接。然后提出一个情景化模型来融合视觉和文本表示。最后,基于情景化连接的输出设计有向连接来推断答案及对应解释,其中包含了ReasonVLAD模块。实验结果和可视化分析证明了所提方法的有效性。

关键词:视觉常识推理;有向连接网络;视觉神经元连接;情景化连接;有向连接

https://doi.org/10.1631/FITEE.2000722



4. Unsupervised object detection with scene-adaptive concept learning

基于场景自适应概念学习的无监督目标检测

浦世亮1,赵暐1,陈伟杰1,杨世才1,谢迪1,潘云鹤2

1海康威视研究院,中国杭州市,310051
2浙江大学计算机科学与技术学院,中国杭州市,310027

摘要:目标检测是机器视觉领域最热门的研究方向之一,在学术界已取得令人瞩目的成果,在工业界也存在许多有价值的应用。然而,主流的检测方法仍有两个缺陷:(1)即使是经过大量数据有效训练的模型,仍然无法很好地泛化到新场景中;(2)模型一旦部署到位,则无法随着不断累积的无标注数据自主进化。为克服上述问题,受视觉知识理论启发,提出一种场景自适应进化的无监督视频目标检测算法,该算法可利用目标群体概念,降低场景变化带来的不利影响。首先通过预训练检测模型从无标注数据中提取大量候选目标,然后对候选目标聚类,构建目标概念的视觉知识字典,其中各个聚类中心代表一种目标原型。其次,通过研究不同目标簇和不同群体目标信息之间的关系,提出基于图的群体信息传播策略以判断目标概念的归属,可有效区分候选目标。最终,利用收集到的伪类标微调预训练模型,实现算法对新场景的自适应。算法的有效性得到多个不同实验的验证,且性能提升显著。
 
关键词:视觉知识;无监督视频目标检测;场景自适应学习

https://doi.org/10.1631/FITEE.2000567





5. Deep 3D reconstruction: methods, data, and challenges

深度三维重建:方法、数据和挑战
刘彩霞1,孔德慧1,王少帆1,王志勇2,李敬华1,尹宝才1

1北京工业大学信息学部北京人工智能研究院,多媒体与智能软件技术北京市重点实验室,中国北京市,100124

2悉尼大学计算机科学学院多媒体实验室,澳大利亚新南威尔士州悉尼市,2006


摘要:三维形状重建是计算机视觉、计算机图形学、模式识别和虚拟现实等领域的重要研究课题。现有三维重建方法通常存在两个瓶颈:(1)它们涉及多个人工设计阶段,导致累积误差,且难以自动学习三维形状的语义特征;(2)它们严重依赖图像内容和质量,以及精确校准的摄像机。因此,这些方法的重建精度难以提高。基于深度学习的三维重建方法通过利用深度网络自动学习低质量图像中的三维形状语义特征,克服了这两个瓶颈。然而,这些方法具有多种体系框架,但是至今未有文献对它们作深入分析和比较。本文对基于深度学习的三维重建方法进行全面综述。首先,基于不同深度学习模型框架,将基于深度学习的三维重建方法分为4类:递归神经网络、深自编码器、生成对抗网络和卷积神经网络,并对相应方法作详细分析。其次,详细介绍上述方法常用的4个代表性数据库。再次,对基于深度学习的三维重建方法进行综合比较,包括不同方法在同一数据库、同一方法在不同数据库以及同一方法对于不同视角个数输入的结果比较。最后,讨论了基于深度学习的三维重建方法的发展趋势。

 

关键词:深度学习模型;三维重建;循环神经网络;深度自编码器;生成对抗网络;卷积神经网络

https://doi.org/10.1631/FITEE.2000068



6. Pre-training with asynchronous supervised learning for reinforcement learning based autonomous driving

面向强化学习自动驾驶模型的异步监督学习预训练方法

王云鹏,郑坤贤,田大新,段续庭,周建山

北京航空航天大学交通科学与工程学院,
大数据科学与脑机智能高精尖创新中心,中国北京市,100191

摘要:基于人定规则所设计的自动驾驶系统可能会因大规模相互耦合的规则而变得越来越复杂,因此许多研究人员致力于探索基于学习的解决方案。强化学习(reinforcement learning,RL)因其在各种顺序控制问题上的出色表现而被应用于自动驾驶系统设计。然而,基于强化学习的自动驾驶系统落地应用所面临的主要挑战是其初始性能不佳。强化学习训练需要大量训练数据,然后模型才能达到合理的性能要求,这使得基于强化学习的模型不适用于现实环境,尤其在数据昂贵的情况下。本文为基于强化学习的端到端自动驾驶模型提出一种异步监督学习(asynchronous supervised learning,ASL)方法,以解决在实际环境中训练基于强化学习模型时初始性能差的问题。具体而言,通过在多个驾驶演示数据集上并行且异步执行多个监督学习过程,在异步监督学习预训练阶段引入先验知识。经过预训练后,模型将被部署到真实车辆上进一步开展强化学习训练,以适应实际环境并不断突破性能极限。本文在赛车模拟器TORCS(The Open Racing Car Simulator)上对所提出的预训练方法进行评估,以验证该方法在改善强化学习训练阶段端到端自动驾驶模型的初始性能和收敛速度方面足够可靠。此外,建立一个实车验证系统,以验证所提预训练方法在实车部署中的可行性。仿真结果表明,在有监督的预训练阶段使用一些演示,可以显著提高强化学习训练阶段的初始性能和收敛速度。


关键词:自主驾驶;自动驾驶车辆;强化学习;监督学习

https://doi.org/10.1631/FITEE.1900637



7. Dynamic value iteration networks for the planning of rapidly changing UAV swarms

用于规划快速变化无人机群的动态值迭代网络
李伟1,杨波威1,宋广华1,姜晓红2

1浙江大学航空航天学院,中国杭州市,310027

2浙江大学计算机科学与技术学院,中国杭州市,310027

 
摘要:在无人机自组网(UANET)中,稀疏且高速移动的无人机节点会动态改变无人机自组网的拓扑结构,这可能会导致无人机自组网服务性能问题。为规划快速变化的无人机群,本文提出一种动态值迭代网络(DVIN)模型,该模型利用无人机自组网的连接信息,采用场景式Q学习方法训练,生成状态值传播函数,使无人机节点能够自适应调节至新的物理位置。然后,评估了动态值迭代网络模型的性能,并将其与非支配排序遗传算法NSGA-II和穷举法比较。仿真结果表明,动态值迭代网络模型显著缩短了无人机节点路径规划的决策时间,且平均成功率更高。

关键词:动态值迭代网络;场景式Q学习;无人机自组网;NSGA-II;路径规划
https://doi.org/10.1631/FITEE.1900712


8. Latent discriminative representation learning for speaker recognition

用于说话人识别的潜在可区分性表征学习
黄多林1,毛启容1,2,马忠臣1,郑智燊1,Sidheswar ROUTRAY1,Elias-Nii-Noi OCQUAYE1

1江苏大学计算机科学与通信工程学院,中国镇江市,212013

2江苏省工业网络空间安全技术重点实验室,中国镇江市,212013


摘要:从语音信号中提取特定说话人的可区分性表征,并将其转换为固定长度的向量是说话人识别和验证系统的关键步骤。提出一种潜在的可区分性表征学习方法,用于说话人识别。我们认为所学表征不仅具有可区分性,还具有相关性。具体来说,引入附加说话人嵌入查找表以探索同一说话人不同语音之间的相关性。此外,引入一个重构约束用于学习线性映射矩阵,使表征更具可区分性。实验结果表明,所提方法在INTERSPEECH2019会议的Fearless Step Challenge挑战赛的Apollo数据集和TIMIT数据集上的性能优于目前最先进方法。


关键词:说话人识别;潜在可区分性表征学习;说话人嵌入查找表;线性映射矩阵

https://doi.org/10.1631/FITEE.1900690

 


9. A partition approach for robust gait recognition based on gait template fusion

一种基于分块步态模板的鲁棒性步态识别方法
王科俊,刘亮亮,丁欣楠,于凯强,胡钢

哈尔滨工程大学智能科学与工程学院,中国哈尔滨市,150001

 
摘要:步态识别具备远程识别的巨大潜力,但这种方法很容易受到与身份无关的因素影响,例如穿衣、随身携带的物体和角度。目前基于步态模板的方法可以有效表示步态特征。每一种步态模板都有其优势以及表征不同的显著信息。本文提出一种步态模板融合方法,以避免经典的步态模板(例如步态能量图像方法)的不足——经典步态模板表征的不完整信息对轮廓变化很敏感。所提步态模板融合方法采取分块的方法,以表征行人不同身体部位的不同步态习惯。根据人体各部分特点将融合的步态模板为3个部分(头部、躯干和腿部区域),然后将这3部分的步态模板分别输入卷积神经网络学习从而获得融合的步态特征。采用CASIA-B数据集进行充分的实验评估,并将所提方法与现有方法比较。实验结果表明,所提步态识别方法具有良好准确性和鲁棒性。

关键词:步态识别;分块算法;步态模板;步态分析;步态能量图;深度卷积神经网络;生物特征识别;模式识别

https://doi.org/10.1631/FITEE.2000377

 


10. Event-based H control for piecewise-affine systems subject to actuator saturation

具有执行器饱和的分段仿射系统基于事件的H∞控制
蒋永豪,吴炜,楼旭阳,江正仙,崔宝同

江南大学轻工过程先进控制教育部重点实验室,中国无锡市,214122


摘要:针对具有执行器饱和的离散时间分段仿射系统,提出一种事件触发控制器设计方法。考虑饱和信息,提出一种新的事件触发策略,该策略能节省通信资源。基于分段李雅普诺夫函数,推导出基于线性矩阵不等式的可行性条件。该条件不仅能保证闭环系统在一定H 性能指标下的稳定性,还能减少信号传输数量。最后,利用仿真实例验证该方法的有效性。

关键词:事件触发控制;分段仿射系统;线性矩阵不等式;执行器饱和;H 性能

https://doi.org/10.1631/FITEE.1900601



11. A descent method for the Dubins traveling salesman problem with neighborhoods

一种求解带邻域的Dubins旅行商问题的坐标下降法
陈征,孙晨浩,邵雪明,赵文杰

流体动力与机电系统国家重点实验室,浙江大学航空航天学院,中国杭州市,310027

 
摘要:由于带邻域的Dubins旅行商问题(Dubins traveling salesman problem with neighborhoods, DTSPN)是无人机执行多目标区域侦察任务需要解决的核心问题,国内外学者对DTSPN问题的快速求解方法进行了广泛研究。本文针对目前已有方法存在计算资源消耗大等情况,设计了一种用于求解DTSPN问题的无梯度坐标下降方法。该方法的核心步骤是将DTSPN问题分解为一系列子问题,对于每个子问题仅需计算从初始点经过一个区域到达目标点的最短路径。通过研究子问题最短路径的几何特征,并将几何特征与二分法相结合,可得到快速计算子问题的鲁棒算法。然后,将子问题计算方法与坐标下降法相结合,构建了能快速求解DTSPN问题的计算方法。最后,为验证所提方法的有效性和快速性,将所提方法与几种传统算法进行仿真对比。

关键词:Dubins飞行器;坐标下降法;Dubins旅行商问题

https://doi.org/10.1631/FITEE.2000041



12. A fuzzy integrated congestion-aware routing algorithm for network on chip

面向片上网络的一种模糊集成拥塞感知路由算法
Shahrouz YASREBI1,Akram REZA1,Mohammad NIKRAVAN1,Seena VAZIFEDAN2

1伊斯兰阿扎德大学Shahr-e-Qods分校计算机工程系,伊朗德黑兰市

2伊斯兰阿扎德大学科学与研究分校计算机体系结构系,伊朗德黑兰市


摘要:片上网络(NoC)是一种为多处理器芯片提供通信平台的基础设施。共享资源的虫孔交换方法在提升其效率的同时,也可能导致拥塞问题的出现。然而,处理这种拥塞问题需更多能耗,从而增加了耗电量。此外,耗电量的增加会产生更多热量并加剧热量波动,从而削减基础设施寿命,更严重的是降低网络性能。考虑到这些复杂性,提出控制拥塞的方法是一个重大挑战。本文提出一种模糊逻辑拥塞控制路由算法,以提高NoC在面对拥塞时的性能。为避免拥塞,所提算法采用被占用的输入缓冲区、相邻节点的总占用缓冲区以及从瞬时相邻节点到终点最短路径下最大可能的路径多样性作为选择参数。为强化路径选择函数,利用了模糊逻辑算法的不确定性。结果表明,平均时延、功耗和最大时延分别降低14.88%、7.98%和19.39%。此外,该方法提高了14.9%的吞吐量和11.59%的接收数据包总数。为凸显所提算法的重要性,采用转置流量模式进行检验,平均延迟改善15.3%。TMPEG-4(三倍MPEG-4)、QPIP(四倍PIP)和TVOPD(三倍VOPD)的平均延迟分别降低3.8%、36.6%和20.9%。

关键词:片上网络;路由算法;拥塞控制;模糊逻辑

https://doi.org/10.1631/FITEE.2000069



13. Passive mode-locked Er-doped fiber laser pulse generation based on titanium disulfide saturable absorber

基于二硫化钛可饱和吸收体的被动锁模掺铒光纤激光器
尚新新1,3,4,郭林广1,3,4,张华年2,李登旺1,3,4,岳庆炀1,3,4

1山东师范大学物理与电子科学学院山东省光学与光子器件重点实验室,山东省光场调控及应用中心,中国济南市,250358

2山东理工大学物理与光电工程学院,中国淄博市,255049

3山东师范大学物理与电子科学学院山东省医学物理图像处理技术重点实验室,中国济南市,250358

4山东师范大学物理与电子科学学院山东省大健康精准医疗产业技术研究院,中国济南市,250358


摘要:本文采用液相剥离法和旋涂法合成调制深度为5.08%、饱和强度为10.62 MW/c㎡的二硫化钛聚乙烯醇薄膜型可饱和吸收体。由于二硫化钛可饱和吸收体具有很强的非线性饱和吸收特性,在掺铒锁模光纤激光器中观测到两种类型的光孤子。当泵浦功率达到67.3 mW时,产生重复率为1.716 MHz、脉宽为6.57 ps的传统锁模脉冲串,其输出光谱中心为1556.98 nm、半高全宽为0.466 nm,且有明显对称的Kelly边带。通过调整偏振控制器,得到另一种锁模脉冲,在517.2 mW泵浦功率下,其最大输出功率为3.92 mW,脉冲能量为2.28 nJ。实验证明层状二维材料二硫化钛具有优异的非线性饱和吸收特性,在超快光子学领域具有广阔应用前景。

关键词:光纤激光器;被动锁模;可饱和吸收体;二硫化钛

https://doi.org/10.1631/FITEE.2000341

 

每篇文章的精要导读将陆续放送,敬请关注。





关于本刊

Frontiers of Information Technology & Electronic Engineering(简称FITEE,中文名《信息与电子工程前沿(英文)》,ISSN 2095-9184,CN 33-1389/TP)是信息电子类综合性英文学术月刊,SCI-E、EI收录,最新影响因子1.604,进入JCR Q2分区。前身为2010年创办的《浙江大学学报英文版C辑:计算机与电子》,2015年更为现名,现为中国工程院信息与电子工程学部唯一院刊。覆盖计算机、信息与通信、控制、电子、光学等领域。文章类型包括研究论文、综述、个人视点、评述等。现任主编为中国工程院院士潘云鹤、卢锡城。实行国际同行评审制,初次转达意见一般在2~3个月内。文章一经录用将快速在线。

2019年,荣获中国科协等七部委推出的中国科技期刊卓越行动计划项目资助(梯队期刊)。


官网http://www.jzus.zju.edu.cn

期刊Springer主页

http://www.springer.com/computer/journal/11714

在线投稿

http://www.editorialmanager.com/zusc


更多信息,请见:FITEE影响因子提升55%,首次跨入Q2区


微信加群

为方便广大科研人员交流讨论,本平台建有以下学科微信群。有需要加群的用户,请加小编个人微信号fitee_xb,并留言想要加入的群,小编会拉您进群。营销广告人员请勿扰。

计算机科学与技术学术群

光学工程与技术学术群

控制科学与技术学术群

信息与通信学术群

电力电子学术群

人工智能学术


加关注  ID: fitee_cae

本公众号为中国工程院院刊《信息与电子工程前沿(英文)》(SCI-E、EI检索期刊)官方微信,功能包括:传播期刊的学术文章;为刊物关联学人(读者、作者、评审人、编委,等)提供便捷服务;发布学术写作、评审、编辑、出版等相关资讯;介绍信息与电子工程领域学术人物、学术思想、学术成果,展示该领域科学研究前沿进展;为该领域海内外学者提供友好互动平台。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存