查看原文
其他

CVPR 2019 | 英特尔发布计算机驱动的“回声定位”技术和人工智能研究成果

英特尔 知IN 2022-05-12


6月20日,在计算机视觉与模式识别大会(CVPR)上,英特尔发表了一系列研究论文,进一步推动了计算机视觉和模式识别软件的发展,并有望革新未来跨行业技术,从工业应用到医疗行业,再到教育行业。英特尔团队也展示了相关的研究成果——利用人工智能和生态系统感知技术构建完整物理空间的数字图像。


2018年CES英特尔展台


英特尔高级院士、英特尔研究院院长Rich Uhlig表示,“如同我们在CVPR上展示的应用那样,英特尔相信技术可以带来新体验,进而革新跨行业问题的解决方式,从教育行业到医疗行业,再到制造业。随着计算机视觉技术的进步,我们可以对设备进行编程,使其帮助我们识别隐藏的物体,甚至让它们能够教授人类行为规范。“


本周公布的一些英特尔研究成果包括:



1.借助声音观测拐角后方



《声学非视距成像》

作者:David B. Lindell(英特尔研究院),Gordon Wetzstein(斯坦福大学),Vladlen Koltun(英特尔研究院)


在这篇论文中,英特尔展示了通过回声构建数字图像并观察拐角后方的技术。非视距(NLOS)成像技术为机器人和机器视觉、遥感、自动驾驶汽车导航和医学成像等应用提供了前所未有的技术支持。


与目前领先的NLOS成像技术相比,该声学方法能够在使用低成本现有硬件的同时,在更长的距离用更短的曝光时间重建隐藏的物体。


在这个解决方案中,英特尔展示了通过扬声器系统发出声波,利用麦克风捕捉回波,为重建算法提供信息­(受地震成像启发),从而构建隐藏在视线之外的物体的数字图像。


摘要

英特尔展示了利用回声来观察拐角后方的新方法。相比基于光学成像的非视距成像技术,该解决方案便宜多个数量级。相较目前最先进的光学方法,这项新技术能够在观察拐角后方时看得更远、更快。



2.利用“应用知识”

训练深度神经网络



《深度监督知识协同推进深度卷积神经网络训练》

作者:Dawei Sun(英特尔研究院),Anbang Yao(英特尔研究院),Aojun Zhou(英特尔研究院),Hao Zhao(英特尔研究院)


人工智能应用包括人脸识别、图像分类、物体检测和语义图像分割,可以利用受生物神经结构、深度卷积神经网络(CNNs)启发的技术来处理信息并有效找到答案。


然而,领先的卷积神经网络对训练来说是一个挑战,因为需要大量分层堆叠的参数来进行操作,这些参数越复杂,训练的时间就越长,消耗的能源也越多。在该文章中, 英特尔研究人员提出了名为“深度监督知识协同”的新训练方案, 该方案能够实现“知识协同”,即让卷积神经网络通过网络层来传递所学到的知识。


该方案能够改善卷积神经网络的训练和性能,从而提高训练模型的预测准确率,以及噪声数据管理和数据识别的能力。


摘要

英特尔研究人员提出了一种新型训练方案,即深度监督知识协同(DKS),该方案可以学习流行的卷积神经网络,其性能远远优于目前的主流方案。DKS与当前专注于不同卷积神经网络模型的知识迁移设计形成了鲜明的对比,形成了卷积神经网络内部跨层知识迁移的新概念。通过在公共基准上进行的大量实验表明,相比最先进的训练方案,利用DKS训练的模型能够显示出更好的性能。



3.为自闭症儿童行为治疗

提供形成性反馈



《用于生成语义上有意义的形成性反馈的可解释机器学习》

作者:Nese Alyuz(英特尔研究院)和Tevfik Metin Sezgin(土耳其科奇大学)


我们通过一系列的表达方式来展示自己的情绪状态,例如:面部表情、声音暗示或身体姿势。然而,患有自闭症的儿童难以像其他同龄人那样精确地表达和识别情绪。


研究表明,如果给予自闭症儿童支持性和建设性的反馈,经过训练,他们可以识别并表达情绪。尤其是提供形成性反馈,例如由专家给出的反馈来描述自闭症儿童需要如何修改其行为,以提高他们的表达能力,这在康复中被证明是有价值的。


然而产生这样的形成性反馈需要一位专家进行持续的监督,他会评估每一个情感表现的实例。在这篇论文中,一个可解释的机器学习框架被证明为监测情绪输入并生成修改人类行为的形成性建议以实现适当的表达展示的系统提供了基础。


摘要

这篇论文介绍了一种将自动形成性评估集成到情感自动识别环境中的系统。这个系统建立在一个可解释的机器学习框架上,该框架可识别需要修改的行为,以实现期望的表达展示。我们在报告中展示了对表达有异的儿童语音数据集进行的实验,表明这种机制所产生的形成性反馈与临床角度的预期一致。



4.3D物体理解的首个大规模基准



《PartNet:用于细粒度和层次化部件级3D物理理解的大规模基准》

作者:Kaichun Mo (斯坦福大学),Shilin Zhu(加州大学圣地亚哥分校),Angel X. Chang (西蒙弗雷泽大学),Li Yi(斯坦福大学),Subarna Tripathi(英特尔人工智能研究员),Leonidas J. Guibas (斯坦福大学),Hao Su(加州大学圣地亚哥分校)


识别物体及其组件对于人类理解世界、与世界交互至关重要。例如,使用火炉不仅需要识别炉火本身,还需要识别火炉的组件,比如火炉的燃烧器、控制旋钮等等。这种能力对于一些人工智能视觉、图形和机器人应用是必不可少的,包括预测物体功能、人物交互、仿真、形状编辑和形状生成。这些广泛的应用激发了对具有组件注释的大型3D数据集的巨大需求。


然而,现有的3D形状数据集只在相对较少的物体实例上提供组件注释,或者在粗粒度不分层结构的组件上提供注释,因此,这些数据集不适合涉及理解的应用。换句话说,如果我们想让人工智能给我们沏杯茶,就需要大型的新数据集来更好地支持视觉人工智能应用的训练,以便解析和理解包含许多微小细节或重要组件的物体。


摘要

在这篇论文中,英特尔介绍了PartNet:这是一个统一、大规模的3D对象数据集,带有细粒度、实例级和分层的3D组件信息的注释。利用我们的数据集,我们建立了三个用来评估3D组件识别的基准测试任务,并根据这些标准对四种最先进的3D深度学习算法进行了基准测试。随后,我们介绍了一种全新的组件实例分割方法,并展示其性能优于现有方法。


英特尔和英特尔标识是英特尔公司在美国和其他国家(地区)的商标。

*文中涉及的其它名称及品牌属于各自所有者资产。


相关资讯


/如需转载请留言/

在看?就点在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存