项目展示 | 全景声技术研发和创新应用
2021全球AI文创大赛
项目展示第10期
企业组优秀项目
全景声技术研发和创新应用
为打造“中国的杜比实验室”而努力!
全景声技术是一种空间音频技术,目前在国外,基于对象的全景声技术已经应用于全景声制作领域。在我国,由于技术和平台受限等原因,全景声采集和播放一直以来处于探索阶段。音频领域的核心技术长时间以来由外国企业或科研机构掌握。基于全景声技术的智能语音研发及转化项目,改变了专业音频领域长期被国外产品占据的局面。
基于全景声场理念的 Ambisonics技术,是一种空间音频技术,它是一种声道独立的球形声场再现技术。Ambisonics 技术将拾取到的声源信号通过一系列打包渲染算法转换成传输编码格式B格式(B-format),根据阶数不同,B-format 有不同的通道数要求。它除了可以还放水平面信息外,还能还放自下而上的高度信息,突破了传统意义上5.1、7.1声道的概念,更真实的营造出四周由远及近的音效,呈现出动态的声音效果、沉浸式的听觉感受。基于全景声的智能语音技术,将带来更好的临场和空间沉浸感。项目广泛应用于网联汽车、消费电子、文化创意等领域。
01
企业/团队介绍
南京拓灵智能科技有限公司致力于成为“中国的杜比”,是国内领先的音频信号智能采集、分析处理以及音频播放的人工智能科技创新公司。凭借多年音频核心技术算法及相关专利的积累,将人工智能技术结合传统音频技术,通过物联网平台和边缘计算架构为行业用户提供成熟、稳定、可靠的人工智能产品及具有商业价值的落地场景。
拓灵首席科学家孙学京博士,毕业于北京大学,美国西北大学语音科学博士学位,曾任职美国杜比实验室,长期从事智能语音及全景声技术研发,并有超过100篇的专利及技术文章;总经理郭红阳入选文化部文化创意人才、北京榜样、海英人才等称号。
拓灵主要提供基于嵌入式的采集端算法、声音分类、声纹识别技术、播放端音效算法、声场技术,以及音频模组、SDK等智能交互解决方案。曾经与微软、ARM、MTK、高通等著名企业深度合作,深耕汽车、安防、金融、教育和娱乐等行业,服务于建设银行、农业银行、工商银行、本田、奥迪汽车、达内教育、创维、百度、阿里、钉钉、中公教育等客户。曾经获得2018奥迪创新实验室大赛“车内交互系统”总冠军及优秀企业、微软加速器创新企业、阿里AI赛道明星企业等荣誉称号。
02
技术介绍
项目研究以基于全景声场理念的Ambisonics技术,它是一种声道独立的球形声场再现技术,Ambisonics 技术将拾取到的声源信号通过一系列打包渲染算法转换成传输编码格式B格式(B-format)。根据阶数不同,B-format 有不同的通道数要求。在解码端配合 HRTF 以及双耳渲染器,我们就可以获得逼真的听音感受了。它除了可以还放水平面信息外,还能还放自下而上的高度信息,更真实的营造出四周由远及近的音效,呈现出动态的声音效果、沉浸式的听觉感受。
基于声场理念的 Ambisonics技术,包括采集端Twirling Capture SDK,单通道或多通道语音增强处理,回声消除,声源定位,均衡器调整,自动增益控制,波束成形。
麦克风阵列设计与定制,包括线性和环形阵列,不规则阵列定制,支持标准First Order Ambisonic(FOA),higher order ambisonic (Hoa)Omini Binaural,支持单指向和全向ECM以及MEMS麦克风。
播放端Twirling Audio SDK,支持立体声到VR声场转换,5.1/7.1环绕声,最新的Ambisonic, Quad Binaural,分轨音频对象(Object Audio), 最新的物理和数学混响模型,独有算法支持反射音、遮挡音,内容自适应算法优化,高质量低功耗。
另外,除了stand-alone仪器这种声音采集的解决方案,我们还提供另外一种可扩展性,移植性高,灵活性强,应用场景更广的音频采集方案(麦克风阵列+软件算法支持)。不仅如此,在最近的迭代中,增加了基于麦克风阵列的降噪处理,语音唤醒、回声消除、声源定位、声纹识别、波束成形、定向增强等核心算法,让音质更纯粹干净,基于全景声的智能语音技术,将带来更好的临场和空间沉浸感。
03
应用场景
2021年拓灵联合中广电广播电影电视设计研究院、北京广播电视台新闻频道中心等单位共同参与设计制作:《12K全景+三维声+5G:探访春天里的双清别墅》荣获虚拟现实视频类二等奖,受到国家广播电视总局表彰。
双清别墅是筹建新中国的革命摇篮也是见证革命史的神圣之地。居住在双清别墅期间,毛泽东等中共领导人共同指挥了渡江战役和解放全中国的伟大进程、策划了国共谈判、筹备召开新的政治协商会议、制定了新中国经济建设根本方针及各项关系到中国命运的重大事件政策。
《12K全景+三维声+5G:探访春天里的双清别墅》采用12K 3D影视级VR摄影技术进行拍摄结合360°三维声,沉浸式地还原了革命圣地双清别墅的每一处重要景观。在音效方面与拓灵三维声算法和制作团队的紧密合作,让观众不仅感受到视觉冲击,声音同样会是沉浸式的全景音效,画面与声音的完美配合,让观众感受到仿佛置身于革命胜地的震撼体验。
作为沉浸式音频领域领军企业拓灵打造从三维声采集、制作到播放作为闭环的技术路线,大幅提升了终端用户听音沉浸式体验。其终端的产品便携式VR声场录制设备Twirling720支持各种VR拍摄终端,一键可以采集录制,支持多种数据输出,并支持全景回放。声场录制机提供配套的软件处理程序,将录制的声场转换成任意形式播放,支持传统立体声耳机和5.1/7.1播放系统。
三维声音频内容制作工具由拓灵自主研发,该音频制作工具是一款VST插件,可兼容当前主流的音频工作站,如protools,cubase等,也兼容当前主流的三维声音频内容格式,如Ambisonic,Quad binaural,Object Audio, 5.1声道等。允许混音师,音频工程师,开发者利用该插件设计,编辑和输出三维声音频,并提供三维声音频的实时渲染和预览。
三维声播放端,拓灵提供最全面的三维声方案和先进的扬声器阵列技术,可应用于影院、科技馆、LiveHouse甚至教育领域等。在沉浸式音频领域时代拓灵已获得国际知名手机、耳机和车机厂商的认可,打破了在此领域长期由国外厂商垄断的局面。拓灵正在与多家智能车机和耳机厂商进行深度沉浸式音频技术合作,共同打造新一代沉浸式音频系统。
全景声技术在汽车领域应用
车内娱乐全景声环境:全景声多路音频播放渲染技术,兼容DOLBY、DTS的标准,利用原有车内音响环境搭建影院级音响效果,也可以根据个人喜好进行定制,保存和分享。
智能声场配置和车企音频3D Logo:针对不同车型空间尺寸等,提供音频校准,打造高端音效体验;基于沉浸式全景声环境,在车内用声音营造出车企特质和品位。
多人音频定位及身份识别:实现180-360度声源定位,准确识别车主及特定人员,并赋予不同的交互权限。
未来,拓灵在坚持以匠心精神打磨技术与产品的同时,将进一步推动沉浸式音频行业的普及与发展,为用户带来更加完美的视听体验。
在「全球AI文创大赛」微信公众号
发现更多「AI+文创」项目