查看原文
其他

从服务视障人士到大众“有声”阅读,AI如何赋能内容创作?

孙冰 微软丹棱街5号 2021-04-27


 “这真的是机器人读的吗?”这是很多人听到由微软智能语音合成平台制作的有声小说《红楼梦》时的第一反应。因为在有声书中,林黛玉的声音略带微愠,贾宝玉言语委屈,而旁白则字正腔圆,这些声音不仅非常逼真堪比真人,而且还通过多种音色和多种语言风格,表现出不同的角色和不同的语境。


有声读物并不是新鲜事物,很早就有各种读屏软件可以实现从文字到声音的转换,但最大问题就是从断句到语气,一听便知是“电脑音”,非常生硬,体验并不好。而随着人工智能技术的进步,科学家和工程师们正在努力让AI的声音充满感情和表现力。尤其是对于视障人士来说,声音是他们感受世界的最重要方式,有温度的声音对于他们不仅是感知世界,更是陪伴。


近日,在“2020国际残疾人日”之际,微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司以及来自微软及各界的 150 余名志愿者,将共同创作的首批人工智能有声内容,包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊,正式捐赠给北京市红丹丹视障文化服务中心的“心目图书馆”。


据悉,这些作品都是基于微软 Azure 云认知服务语音合成平台 Speech Studio 及其丰富的AI(人工智能)语音创作的,其中包括著名艺人周迅授权的定制声音、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音(如晓晓、云野等)。


“微软晓晓”到“AI周迅”,让声音有温度


对于视障人士来说,日常的“阅读”主要是通过触摸盲文书、听读屏软件或真人朗读的有声书等方式。但遗憾的是,这几种方式都存在一定的局限性。


比如,盲文书的数量非常有限,而且制作成本高、阅读时间长;读屏软件声音不够自然,机械音很难产生共情和共鸣,长时间聆听也容易疲劳;真人录音虽然效果很好,但制作周期长、成本高,即使是志愿者可以免费献声和免费制作,但录制制作完成一本有声书,最快也要花上两三个月的时间。


早在十几年前,微软就开始与中国最大的视力障碍人群公益组织——北京市红丹丹视障文化服务中心进行合作,为其提供技术和产品支持,共同探索用技术服务视障人群。尤其是在2014年,微软 AI 语音团队和红丹丹一起,为视障人士在微软 Azure 上搭建了云端有声读书馆——“心目图书馆”。


微软的科学家和工程师们利用微软的AI智能语音技术平台,将文字合成有声电子读物产品,利用技术可以大批量地、自动化地的将电子书转变为有声书,不仅大大减少人工录制的人力和时间成本,也成倍丰富了视障人士有声阅读内容的来源。


“声音是视障人士获取知识、陶冶情操、丰富精神世界的重要方式。微软人工智能语音技术声音动听、语音自然,帮助我们降低了有声内容创作成本,心目图书馆的馆藏越来越丰富。应用微软文字转语音技术后,红丹丹能够合成一本有声书的效率大大提高,而且能够 7*24 小时不间断生成。”红丹丹创始人郑晓洁表示。


随着微软 AI 语音技术不断更新迭代,2019年,微软利用微软神经网络语音合成技术打造了自然的人工智能声音如“晓晓”。而此次,微软又与一直热心公益事业的著名演员周迅合作,通过定制她的AI声音,更加高效率地服务于视障人群。


“微软语音技术合成的 AI 声音非常自然、人性化、富有情感,最终呈现出来的周迅AI语音特别有说服力。我们非常荣幸能通过捐赠用周迅定制声音生成的有声读物,帮助视障朋友学习和成长。除了贡献公益事业,也很欣喜从中获得了促进娱乐业数字化转型,优化生产流程方式的更多思考。”周迅AI语音红丹丹公益项目发起人、鹿音苑音乐文化传播公司联合创始人曾宇表示。


据悉,通过“心目图书馆”,视障人士可以随时随地通过移动设备收听和下载有声读物,目前,该图书馆已经覆盖全国105所视障人士学校。


逼真一分需百倍付出,声音背后的微软“黑科技”


技术的进步不应该加深“数字鸿沟”,反而应该成为帮助弱势群体和特定人群的强大助力。人工智能技术的创新对于社会和产业发展都带来深远积极的影响,未来也将逐渐融入人们的日常生活,让每个人都能享受到技术带来的便利。


早在2017年,微软就宣布 5 年内为“AI for Good”项目投资 1.25 亿美元,通过人工智能技术解决当今社会最重大的挑战,其中就包括了人工智能无障碍计划(AI for Accessibility)。2018年,微软宣布在五年内投入 2500 万美元到该计划当中,用于研发能够增强人类能力的人工智能技术,让全球残障人士更好地走进职场、融入现代生活、增进人际交往。


以微软的智能语音技术为例,经过持续不断迭代升级,目前基于 Azure 的深度神经网络语音模型几乎能够达到真人录音水平,并能够提供多角色、多情感、多风格,适用于丰富场景的平台原生或定制声音。


微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士表示:数字经济是21世纪发展主题之一。未来十年,全球经济增长将得益于数字技术的普及和在每一个行业的深入应用。我们要在科技进步的同时,确保人人不掉队,让每个人都能够参与到经济和社会的发展当中,并从中受益。


“微软的使命是予力世界每个人和每个组织成就不凡。我们通过持续创新打造更具包容性的技术和工具,不断降低技术门槛,让技术创新成果普惠大众,推动技术无障碍建设,帮助世界各地的公益组织通过创新技术实现公益事业的跨越发展。微软世界各地的员工都参与其中。”洪小文说。


而在这背后是来自微软的科学家和工程师付出的巨大努力。想要逼真一分,背后需要百倍付出。微软云计算与人工智能事业部首席产品总监丁秉公“揭秘”了,为什么人工智能合成的声音可以做到如此逼真?是怎样的黑科技在背后作为支撑?



丁秉公表示,利用 AI 技术进行语音识别和语音合成,简单来说,需要完成一个“ABC公式”,即A是算法,算法是人工智能的核心;B是大数据,有了足够大的数据,算法这个“厨师”才能做出好菜,否则巧妇难为无米之炊;C是算力, AI需要一个强大平台的支撑,以微软 Azure 云平台为例,它为人工智能提供一个安全、可靠、可信的计算平台,让算法能够在上面非常好的运行。


万物有声:不止公益,AI赋能有声内容生产


视障人群通过聆听来“阅读”,但对于普通人来说,“有声化”阅读也越来越受到欢迎。随着“耳朵经济”的兴起,有声内容正在成为国人文化消费的重要场景。


以图书出版领域为例,近年来,纸声同步、纸声联动已经逐渐成为行业趋势,而AI技术大大提升了图书出版行业创作“有声内容”的生产力。因此,除了在公益领域,微软的 AI 语音识别和语音合成的技术和产品也在赋能机构媒体转型升级,协助更多内容创作者产出个性化音频内容,让声音成为品牌。


中信出版集团社会责任部主任孔彦表示,很多出版机构现在不止有读者,也有听众,都会推出有声书平台,不仅仅是服务视障人士,大众也非常喜欢。而AI技术可能帮助出版机构实现,文字向声音的转化更快捷,成本也大幅降低。


湛卢文化副总裁、湛卢阅读APP负责人陈漪也表示,AI技术不仅能够帮助湛卢在有声内容制作上提升效率、降低成本,也可以帮助打造属于自己的声音品牌,为整体品牌赋能。


实际上,AI演播员、AI新闻主持人、AI电台主播、AI歌手……微软智能语音合成和语音识别解决方案,已经在落地多个业务场景,不止公益,而是具有经济和社会双重效益。


“技术必须以人为本、以人为中心。通过人工智能技术创新,微软希望能扩展每个人的能力,解放他们的思维和创意,使他们可以投入更具策略性和创新性的探索,从而帮助个人和组织实现更多、更重要的目标。通过微软 Azure 认知服务来赋能不同领域的工作者,可以让即使不具备机器学习专业技术背景的人也能轻松使用AI,并由此产生出创新的连锁反应。”微软全球技术院士、微软 Azure AI 首席技术官黄学东表示。



本文转自 中国经济周刊,记者:孙冰


体验有声内容创作工具平台:

https://speech.microsoft.com/audiocontentcreation


了解更多:




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存