查看原文
其他

【数智化案例展】雅迪VFLY——思必驰智能语音技术助力两轮车智能化升级

思必驰 数据猿 2022-07-07





思必驰案例

本项目由思必驰投递并参与“数据猿行业盘点季大型主题策划活动——《2022中国企业数智化转型升级创新服务企业》榜单/奖项”评选。

数据智能产业创新服务媒体

——聚焦数智 · 改变商业




受国家“碳达峰,碳中和”政策的推动,以新能源为核心动力的绿色出行成为两轮车行业发展趋势。
同时随着新国标落地、消费升级为两轮车行业带来新一轮发展的外部驱动力。用户层面,新一代年轻用户对产品的需求,已从基础的动力续航提升至智能化、个性化、品质化,对出行的需求也从多点一线的日常通勤,转向更加凸显自我、追求个性的场景式体验。

面对行业的变化,雅迪秉持“洞悉用户痛点、挖掘用户需求”理念,为打造满足用户“情感需求”、确保“个性化”、“品质化”的“智能化”产品,实现差异化竞争,经过深入调研,汲取汽车智能化发展灵感,提出以语音为入口的智能交互产品方案,与思必驰不谋而合。思必驰作为国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,面对两轮出行智能化升级需求,思必驰打造了两轮车智能化解决方案。在此背景下,雅迪携手思必驰在智能车控、智能网联、人机对话等方向达成深度战略合作。2021年,双方启动了雅迪VFLY项目,打造全场景智能AI语音助手,创新性实现声纹解锁功能,为用户带来智能骑行新体验。

实施时间:

开始时间:2021年2月,雅迪与思必驰携手启动两轮车智能化项目。2021年7月,雅迪在上海发布全新高端品牌VFLY,推出全新智能高端产品,融入思必驰智能语音技术,打造全场景智能AI语音助手。2021年8月,雅迪VFLY系列车型正式量产交付,销量持续增长。

截止时间:2021年8月完成项目一期阶段性截止,通过智能语音交互系统的OTA功能,目前仍持续保持版本迭代升级,不断完善语音交互体验。

客户的数智化(数字化)转型升级需求


雅迪作为两轮电动车行业的领航者,深耕行业多年,在产品的研发设计、核心技术、售后服务等方面都有着丰富的经验积累,占据了市场核心位置。但随着两轮电动车行业的成熟,市面上产品差异化越来越小,竞争压力越来越大,智能化成为寻求差异竞争的各大两轮电动车品牌厂商关注的新增长点。根据艾瑞咨询数据显示,70%以上的用户希望优先拥有智能车锁、车辆追踪的智能防盗功能;六成以上用户希望车辆APP优先拥有的功能是车况检测,包括锁车状态、余电查询等。在用户需求推动下,市面上各大厂商都推出了智能化功能,如APP控制、NFC解锁、蓝牙解锁、手机投屏导航等。不同于其他厂商对智能化功能的理解,雅迪认为两轮电动车内部的联动属于普适性的智能,只有持续为消费者提供便捷和安全,才是真正符合用户需求的智能化。结合用户出行生活场景,雅迪希望在车辆解锁、智能网联、车控、娱乐等方面,在兼顾安全、便捷同时,实现更自然更智能的交互体验,赋予车辆更多人性化的智能服务,把车辆从出行代步工具,打造为引领未来城市智慧出行方式。

面临挑战


首先,产品的应用场景更复杂。作为一种灵活的出行代步工具,两轮电动车用户的出行场景丰富,几乎覆盖了生活、工作和休闲的方方面面,但是往往使用环境比汽车更复杂、恶劣。而且不同于汽车封闭式座舱,目前市面上主流两轮车采用的是开放式座椅设计。本项目相当于要在全户外场景下实现人车的语音交互,对产品方案的设计及性能都提出极高要求。不仅要面临风吹日晒雨淋的考验,而且需要考虑行驶条件下户外噪声、骑行风噪、车辆震动等因素的影响。

其次,为打造满足两轮电动车出行的全场景智能AI语音助手,需要深度调研两轮电动车用户实际出行的场景需求,将语音交互系统与车辆进行深度集合,打通车身各个模块的控制。同时还需考虑跨设备流转,实现手机APP的语音控制和车辆语音控制的互通。目前车载智能语音控制系统在汽车上的应用已经比较普及,但是在两轮电动车的落地案例仍然比较少,本项目可谓实现了两轮电动车智能语音助手应用先河。

最后,雅迪深耕两轮车行业多年,在车辆的研发设计、核心技术、售后服务等方面都有着丰富的经验积累。思必驰作为国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术。因此本项目是双方在各自领域一次技术互补性的合作,是双方团队互相学习、探索的成果。在项目研发过程中,思必驰产品及研发团队多次驻场开发、调试,确保了项目的顺利落地。

数据支持


1. 使用语音交互的用户数量,目前平均每日使用语音交互的用户数大约2万人次;

2. 用户使用语音交互请求数量,反馈用户在实际场景下的使用情况,目前平均每日语音交互请求量大约7万次;

3. 语音交互数据量级,目前每月处理的语音交互数据量达到10G。

应用技术与实施过程


本项目搭载了思必驰全链路语音技术,打造全场景智能AI语音助手“小迪”,支持行驶导航、接拨电话、智慧百科、播放音乐等多种全场景智能语音互动功能。基于思必驰声纹识别技术,创新性实现了两轮电动车声纹解锁功能,通过声音精准识别用户身份,摆脱钥匙和手机的束缚,让车辆解锁更智能更便捷。

当用户进入声纹解锁功能,系统在仪表屏幕上会显示一个验证码,用户按要求读出验证码即可进行声纹解锁,如果声纹认证成功则启动车辆;如果连续3次认证失败则将自动锁定解锁功能,并通过手机APP通知车主。本项目的声纹系统框图如下,其中双麦信号处理在车机端侧完成,语音识别和声纹识别采用云+端模型,当设备不能联网时将在端侧进行,如设备可以联网时则在云端完成,此模型可以有效提高解锁成功率。

本项目采用180°广范围拾音双麦阵列,用户声音被双麦阵列拾音后,利用思必驰最新双麦信号处理算法进行降噪处理。不同于家电、汽车内设备的相对密闭使用场景,两轮电动车使用场景多集中在室外人流密集的场景,如地铁口、超市、马路边、菜市场等,声学环境更加复杂,为此思必驰开发了全新的多通道神经网络与多通道传统信号处理相结合的信号处理算法,如下图所示。

多通道传统信号处理可以解决人声干扰,但是传统信号处理方法存在噪声抑制不干净问题,低信噪比性能下降明显,且欠定条件(即声源数大于麦克风数目)下算法失效,神经网络方法存在相位重建困难,模型输出信号失真大问题。为了解决噪声抑制不干净问题,通常会加入后处理模块,进行进一步降噪,但是后处理通常只能抑制稳态噪声,对类似人声的非稳态没有很好的效果。

本项目采用的信号处理算法,将多通道神经网络与多通道传统信号处理相结合,利用神经网络的输出控制传统信号处理滤波器的更新。利用多通道神经网络学习特定方向的声源信息,得到目标语音的时频掩蔽值,即每个频点的mask。这一方法的好处是,在低信噪比或者欠定情况下mask都能估得很准,目标方向的语音频点mask值大,干扰方向语音或噪声频点mask值很小。然后将mask值传递给传统信号处理模块,协助传统信号处理进一步精细地增强目标语音,且利用传统信号处理方法完成相位的重建。最终可选地将神经网络输出的mask做点微小变动,乘到传统信号处理的输出上,作为后处理使整个系统达到更多的降噪。

信号处理后的音频送入思必驰ASR系统,将识别说话内容,如果识别内容与系统发送验证码一致,送入声纹识别模块进行最终身份验证,否则提示验证码有误解锁失败。为适应两轮电动车复杂应用场景,本项目中ASR采用行业领先的自研字级建模VDCNN-CTC技术,提升识别准确率的同时,加速模型计算效率;在语言模型方面,思必驰采用大规模神经网络语言模型技术,有效提升识别准确率,结合特色的“多路解码融合”技术,可快速实现语音识别场景化定制;在解码器方面,思必驰采用深度优化的基于GPU的高速并行解码器技术构建语音识别引擎,新型解码框架PSD,使整个搜索空间减少80%以上,大大提升语音识别的搜索速度。综合累计相比传统的语音识别系统,识别准确率提升30%以上,解码速度提高7倍,内存下降50%以上。

声纹识别系统⼀般包括三个部分:

a. 背景模型训练 (背景模型⼀般为 GMM、DNN、CNN等)。

b. 说话人注册,根据用户的注册音频为其建立说话人模型。

c. 说话人测试,在用户的说话人模型已经建立的情况下,对其性能进行检测。


图、典型声纹识别系统架构

思必驰采用国际主流的xvector模型作为背景模型,模型结构如下图所示。


图:xvector模型结构框图

模型结构框架图中的Statistics Pooling之前的采用TDNN结构,下图是TDNN的示意图。


图:TDNN模型结构框图

在两轮电动车应用场景中,既要保证在嘈杂场景下声纹识别有高准确率,同时要防止“有心人”在用户解锁时偷偷录音用来攻击声纹识别系统。采用固定文本注册和验证的文本相关声纹识别准确率高,但容易被提前录音;采用随机验证码注册和验证的文本半相关声纹识别,可以有效防止被录音,但识别准确率不如文本相关声纹。

本项目中,声纹识别模块采用文本相关声纹识别 + 文本半相关声纹识别相结合的声纹认证方式,系统发送的验证码由 “你好小迪” + 4位随机码组成,根据语音识别结果,将用户音频分成“你好小迪”和4位随机码两部分。“你好小迪”部分采用文本相关声纹识别模型进行认证,4位随机码部分采用文本半相关声纹识别模型进行认证。基于固定文本+4位验证码的声纹解锁方案,比单纯固定文本方案取得相对20%的声纹识别性能提升,且每次4位验证码是随机生成的,可以有效防止被人提前录音。

目前,思必驰声纹识别系统通过了国家金融权威机构认证的声纹技术安全认证,和中国信通院可信AI评测,达到公安部安防声纹确认应用算法技术最高标准要求,可以有效保证声纹识别准确率。

此外,为确保用户声纹数据安全,本项目采用的是端侧加密上传方式。当用户在进行云端声纹注册和验证时,原始音频信息不会同步上传,需端侧经过AES-256 CBC加密后,才会上传不可逆声学特征到云端服务器,确保说话人注册模板保存在加密数据库。同时,当用户在使用声纹识别进行身份认证后,端侧也会将原始音频删除,确保声纹数据不泄露。

最终,综合信号处理、识别、声纹优化,用户即便身处在地铁、菜市场等嘈杂场景,雅迪VFLY车型的声纹解锁率达到了95%以上,而他人解锁成功率仅为0.1%,同时有效确保用户数据安全。

当车辆解锁成功,用户随时可以通过语音唤醒词“你好 小迪”唤醒智能AI语音助手实现功能操控。这一过程基于思必驰云端全链路语音AI能力引擎,实现人车自然流畅的交互。在本项目中,针对户外骑行环境,采用了思必驰定制骑行降噪算法。通过对两轮电动车在不同环境下驻车、不同速度下骑行等多场景的周边环境数据采集,优化降噪算法模型,完成骑行环境定制训练,提升了出行全场景下的语音唤醒和识别的准确率。


图:语音全链路引擎示意图

当接收到唤醒指令时,语音助手“小迪”就会进入聆听状态,并会给出反馈,如“我在呢”告诉用户它已被唤醒进入拾音状态,同时仪表屏幕上也会有声波动效显示唤醒状态。这时用户可以直接说出语音指令,如“导航去...”,语音助手拾取到指令后,会将声音信号从模拟信号转换为数字信号,并持续上传到语音识别服务器。服务器将数字信号经过识别、理解转换为相应的文本或命令。输入到DM大脑,根据当前指令需要以及对话的状态,决定下一步应该采取的最优动作,如直接提供对话结果,还是向用户发起询问等。经过对话管理,最终输出机器动作指令,并将反馈结果(或询问)通过声音播报出来,完成与用户的交互。

思必驰打通了近300家第三方资源接口,为用户提供交通出行、新闻资讯、社交分享、生活娱乐、工作处理等各领域内容服务,使语音助手具备丰富的对话技能。在本项目中,针对两轮电动车的语音骑行导航,进行了导航地图的优化。区别于普通骑行导航,两轮电动车导航结合电动车禁行区域、时速等因素进行综合计算,导航结果更合规、更贴合实际电动车骑行场景。

目前,本项目仍在持续迭代升级,不断完善语音交互功能,优化智能服务体验,使雅迪VFLY两轮电动车实现车辆智能、车控智能以及数据智能,满足用户在多样化出行场景下,获得更加智能、高效、便捷、安全的两轮电动车出行体验。

商业变化


思必驰为雅迪VFLY打造的全场景智能语音助手,实现骑行场景下以语音为入口的人车交互,还创新性实现声纹完成车辆解锁。目前在两轮电动车市场,不管是智能语音助手还是声纹解锁功能,都属于创新性的智能化方案,为两轮电动车智能化升级带来了更大想象空间。同时,在雅迪高端化战略进程中,本项目协助雅迪完成了在智能技术赛道上的突破,搭载智能语音助手的雅迪VFLY车型一经发布,就受到行业及用户的广泛关注。作为雅迪的高端城市品牌,VFLY凭借“智能”切中用户追求品质生活、注重个性表达的需求,开创了两轮电动车高端骑行新局面。根据雅迪财报显示,2021年雅迪实现收入同比增长39.3%达270亿元(人民币);全年销量为1386万辆,同比增长28.3%,连续五年位居全球第一。同时,雅迪市场份额与议价也实现稳升,雅迪全球市场份额由2020年的约23%进一步提升至2021年的26%以上。

关于企业


·思必驰

思必驰是国内专业的对话式人工智能平台公司,拥有全链路的智能语音语言技术,自主研发了新一代的人机交互平台(DUI),和人工智能芯片(TH1520);为车联网、IoT、以及众多行业场景合作伙伴提供自然语言交互解决方案。思必驰拥有上千项知识产权,是国际上极少数拥有自主知识产权、中英文综合语音技术的公司之一;与阿里、腾讯、小米、富士康、OPPO、长虹、顺丰、龙湖地产等企业达成战略合作。

·雅迪VFLY

雅迪VFLY,作为城市高端新能源代步车,始终坚持“极致不妥协”的品牌精神,为每位追求品质与品味的时代先锋,打造极致出行体验,以更多更优的产品与人性智能服务,赋能未来都市移动出行,让多维“自由”成为可能。于2021年7月8日在上海保时捷体验中心正式发布,同步公布品牌理念“生而自由”,并与保时捷设计工作室及国内外顶尖设计团队共同合作。共享雅迪的技术,质量与生产体系。VFLY的品牌使命是打造绿色自由的极致骑行体验,品牌精神是极致不妥协。

抽奖福利


后台回复关键词
小暑至,盛夏始
即可参与现金红包抽奖




《2022中国企业数智化转型升级服务全景图/产业图谱1.0版》

《2022中国数据智能产业图谱1.0版》

 创新服务企业榜

 创新服务产品榜

 最具投资价值榜

 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》

联系数据猿

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存