查看原文
其他

对话智能有声内容创作志愿者 | AI无界 因你声动


丹棱君有话说:“数字经济是21世纪发展的主题之一,未来十年,全球经济增长将得益于数字技术的普及和在每个行业的深入应用。我们要在科技进步的同时,确保人人不掉队,让每个人都能够参与到经济和社会发展中,并从中受益。”微软全球资深副总裁洪小文表示。


声音是视障人士获取知识、陶冶情操、丰富精神世界的重要方式。2020年世界残疾人日前夕,一批由 150 余名来自微软及各界的志愿者创作的人工智能有声图书,包括鲁迅、老舍、萧红、朱自清等作家的作品,被正式捐赠北京市红丹丹视障文化服务中心(下文简称“红丹丹”)。



这些志愿者包括微软员工、学生,以及从事IT、人力资源管理和财务等工作的热心人士。他们利用基于微软 Azure 认知服务的 Speech Studio 有声内容创作平台进行语音内容创作,让艺人周迅、红丹丹视障人士播音员董丽娜授权的定制声音,以及多个微软智能语音合成平台声音为文字赋予了情感和生动的表现力。



为什么参与这一项目?


机械工程师黄燕玲:“我所在的微软硬件团队有一部分重要工作就是打造无障碍的硬件,比如 Xbox 无障碍控制器,它让残障人士可以自由组装控制器畅玩游戏。我希望尽我所能做更多无障碍的技术。对于视障人士来说,有声内容是获取信息的重要渠道。当我在公司邮件中看到微软志愿者发起这个项目,就很欣喜地加入了。”


有声内容创作是怎样的体验?


技术支持专家卢布:“我负责组织10位来自公司不同部门的同事,利用平台原生‘云野’等AI语音和周迅的定制声音,将经典文学的部分章节做成有声内容。我们参加了一小时的培训,发现没有想象的复杂,有没有技术背景都可以快速上手。人机协同的力量很强大,创作的过程轻松又便捷,平台可视化方面不错,下拉菜单设计的逻辑清晰。输入长文本后平台能快速分析情感和角色自动生成语音,在此基础上,我们根据对内容的理解进一步优化细节,比如说人的情绪好比是色谱,有由强到弱的变化,我可以加强或减弱某种情感的程度,让情绪表达更细腻。”


人力资源管理专家张岩:“我不是做技术的,但我是个技术迷。我们的志愿者团队是非常多元化的,并非人人有技术背景,大家在使用AI有声内容平台创作的过程是非常轻松愉快的,生成的结果是非常令人惊讶的,完全就像真人在说话的感觉。”


红丹丹创始人郑晓洁:”微软人工智能语音技术声音动听、语音自然,可以大批量地、自动化地的将电子书转变为有声书,使得合成有声书的效率大大提高,而且能够7*24小时不间断生成,帮助我们降低了有声内容创作成本,心目图书馆的馆藏越来越丰富。同时,我们也期待更多社会热心伙伴加入到志愿者行列,为丰富视障人士有声阅读内容来源贡献力量。”



有声内容创作的未来


研究员于智薇:“AI在自然语言领域扮演着重要角色,人们期待计算机具备像人一样理解语言文字的能力,以服务于各行各业。AI有声内容创作平台正是应用了自然语言处理中的文本转语音(TTS)技术,经过不断迭代升级,目前已经在许多应用场景落地,比如新闻播报、有声内容朗读、视频配音、车载语音等,未来还有很大的发展空间。”


财务管理专家陈雅惠:“在数字化转型的时代,我认为AI有声内容创作平台是一种供每个人学习数字技能,让AI技术可以广泛帮助到有需求的人。比如,我们计划用有声内容创作平台协助我们财务团队制作财务培训内容,供各个城市的同事学习,这一方式将代替人工录制,输出的声音标准又生动,让相关员工可以把精力放到更关键的工作中去。”


微软AI语音技术专家汪曦、李大鹏: “我们设计平台的核心理念是‘化繁为简’,仔细揣摩用户的需求,带来简单又丰富的平台工具,让用户不需要理解平台技术逻辑,就以尽可能少的步骤流畅使用,让AI激发人的创造力,把音频内容绘声绘色地演绎出来。目前基于微软 Azure 的深度神经网络语音模型几乎能够达到真人录音水平,并能够提供多角色、多情感、多风格、跨语言,适用于丰富场景的平台原生或定制声音,我们还将持续打磨升级。”



体验有声内容创作工具平台:

https://speech.microsoft.com/audiocontentcreation



了解更多:





    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存