● 王铮:用专业术语来解释的话,计算机视觉应用是:在理解图像/视频内容的基础上,协助人们日常的生产活动。实际上,计算机视觉是对真实世界的感知,是一个运行在电子元器件上的算法尝试去认知真实世界中的事物。认知在计算机的眼里是一个寻找一种物体区别于其他物体的纹理特征并逐步向语义概念抽象的过程。● 王铮:大二开始接触计算机视觉(现在是复旦在读博士),就被这个领域吸引了。想了解计算机是怎么“理解”图像的。而现在的计算机分析识别过程是一个黑箱,比如动作识别,计算机只会告诉你它认为看到了前面有行人穿马路的概率有多大,我期望计算机能告诉我们它的思考过程,这在自动驾驶等需要视觉分析的系统做决策时是很重要的。Make media accessible to all. 是我的理想。“media”是我想要研究的内容,然后我希望它以更善意、友好的、可互动的方式给需要的人带来便利,尤其是视障人士。● 王铮:有的。所有人其实都希望能被平等相待,视障人士也同样如此,他们比我们想的更希望能自食其力。我(一位视障人士)做了记号,还是经常会把他们弄混……
钟点工跟我说了保质期,有时候心里明明记得,到了礼拜天又忘记了。所以现在我干脆让她不要买了,反正我也分不清放着浪费,还是不吃了。
基于此,我们选择为视障人士解决“查看”食品保质期作为研究切入口。我们用OCR(光学字符识别)算法包装上的保质期,用手机将信息写入廉价且可以重复使用的RFID(射频电子标签)中,再把标签贴到物品包装上,之后我们只需要用手机靠近射频标签就可以得到相关信息的语音播报。以此最终实现信息向视障人士的无障碍“传达”。通过类似的工作原理,我们还可以为其识别更多的商品信息。● 王铮:传统计算机视觉的内容包括人工设计的局部特征提取方法。深度学习出现后,计算机视觉开始增加了可以识别的物体种类,增加了视觉问答,图像生成等任务。局部特征是像素明暗变化形成的线段或者拐角,在一小块图像内统计边角的数量抽象成特征向量,多个特征向量打包做分类相当于物体识别。深度学习兴起后,这套传统视觉特征工程被神经网络模型替换,计算机能准确识别的物体种类数量大大增加,更是出现了视觉问答,图像生成等更接近智能的任务。● 在实现计算机视觉应用方面,近年最大的进步之处在哪些步骤或环节?● 王铮:应该是三维重建。较之二维图像的难度,在于二维只有XY方向上的关系,而没有Z方向上的关系,就丢失了深度信息。● 王铮:从方法上来讲,三维重建要学习算法(深度神经网络模型):首先,每一个二维图像都有事先采集好的三维模型;
其次,利用数学中的投影方法,将二维图像中的物体局部与三维模型中的物体局部进行匹配,而匹配的目的是让算法知道二维图像的结构特征在三维的空间中长什么样子;
最后,通过对各种物体的匹配方式的学习,算法知道了如何将二维结构变成相对应的三维形状。
简单说来:
可以把以上过程想象成捏橡皮泥,算法学习完后,给计算机 “看” 一张图,计算机就“捏出”一个三维模型。再比如,这是在Teamlab island活动上,一位小朋友在纸上画画,他画完一条鱼,走到投影屏幕旁边,画好的鱼就 “跳进” 海里了。这对正处于对世界充满好奇的青少年孩子来说,极具吸引力!
而我想做的事情,大概也是期望能如此 “有趣” 吧,这也是我选择计算机视觉应用进行博士深造的根本原因。● 王铮:比如把计算机视觉和增强现实结合、把计算机视觉和机器人结合。
计算机视觉目前还是一个被动的系统,本科期间,我在RoboCup比赛的经历也使得我更想制造更能主动反馈的视觉系统,而这需要融合更多的传感和显示技术。RoboCup的目标是2050年足球机器人能赢下人类冠军,而我只是希望十年后:机器人能陪小朋友玩。我对自己的要求很低: 活在世上,无非想要明白些道理,遇见些有趣的事。
倘能如我所愿,我的一生就算成功。
受访:王铮