查看原文
其他

手上输出不如嘴上功夫

半佛仙人 半佛仙人 2022-05-04


这是半佛仙人的第239篇原创


1


今年是小米成立10周年,10年前的4月6号,小米成立,智能手机的价格底裤从此被扒了个底朝天,后来那一天成为了小米的节日“米粉节”。


而在小米内部,还有一个比较重要的日子,那就是MIUI第一次正式发布的8月16号,2011年的8月16号,小米正式发布了MIUI,国内搞安卓系统的,总算来了一群正经做事情的人,当时的MIUI可以说是最好用的三方UI之一。


直到今天,业内说小米手机的时候,都要加一句戏称。


这个MIUI值300块。


在这个成立10周年的节点,小米发布了自己的新手机小米10青春版,同时发布了自己的定制UI系统MIUI 12。


这套系统最让我感觉有趣的是两个方面:


第一,是“空信息授权”。


在这个时代,拿用户信息已经成了APP公认的明规则,只要你安装新APP,甭管有用没用,上来先跟你要一圈通信录、短信,摄像头、录音机,地理位置等的权限。


你不给,可以,那也不给你提供服务,你想用,那就得开放所有的权限。


按照道理来说,有些权限是必须的,例如地图类APP要定位权限完全合理,不然总不能量子玄学给你导航吧。


但是地图类APP要短信干什么?想直接给我导航去多人运动么?


MIUI 12的这个“空信息授权”功能可以生成一个空白的信息授权给APP,保证用户使用的前提下,给授权APP提供空白信息回路,这应该是国内系统的首创,非常有心。


第二,则是“小米闻声”。



小米闻声是一个语音交互的模组,这对推出了“小爱同学”的小米来说并不算太新鲜,但是这一次小米专门给这个产品做了一个定位:无障碍服务。


我之前在知乎上看过一个国内视障人士使用读屏软件来操纵手机的帖子,看过之后深深的感觉,太难了,视障人士用手机实在太难了。


很多对正常人来说一目了然的UI,对视障人士来说就是复杂又麻烦的古怪设计,尤其是那些APP中无处不在的广告,普通人可以视而不见,视障者却不得不听着读屏软件念一遍才能下滑。


听障患者也是一样,在这个短视频的时代,听障患者面对没有字幕的视频只能猜测视频里发生了什么,外卖电话很难接起来,电话可以用来发短信却不能用来发语音。


小米闻声就致力于解决这些问题。对于视障者来说,小米闻声可以用语音交互直接执行操作,省去了摸着手机靠耳朵找APP的时间;对于听障患者,它可以直接把别人的话转换成文字,让听障者多一双耳朵,还能帮语言障碍者将文字转换成语音,应对一些陌生人的电话。


会关心一个小众市场,帮助这些听障、视障者更方便的使用手机,说明小米是一家有温度的企业。


但是要完成这种有温度的服务,不仅是想法,更要有技术,小米闻声背后的技术,来自科大讯飞。


2


讯飞听见是小米闻声的核心技术提供方。


对讯飞这个名字,国内应该已经有许多人有过耳闻,因为在中文语音交互的领域,讯飞就是王者,只要和这个行业沾点边,很难不和讯飞打交道。


去年美国商务部出了一份“实体清单”,将中国最顶尖的8家科技公司列入其中,科大讯飞榜上有名,某种程度上,证明了在语音、人工智能领域,科大讯飞已经是饱受关注的顶尖技术公司。


讯飞听见,是科大讯飞推出的以语音转文字及翻译为核心功能的系列产品和服务。


如果你没有见过讯飞听见的产品,你很难想象就一个“语音转文字”的技术,能够玩的多么科幻。


在科幻电影里,经常出现带上就能听懂另一种语言的耳机,我们一般都会认为那是科幻产品,怎么也得过个十几年才能看到,弄出来也价格不菲。


但是事实上,拥有这种功能的同步转录、翻译软件已经出现了。只要你在手机上安装一个讯飞听见APP,普通手机就能变身同传、翻译机。它支持中英文录音转文字,可以轻松输出文字结果。


有了这东西,去英语国家旅游你就不用带翻译,更不用上窜下跳瞎比划,只要直接对着手机说话,就能实时翻译,之后再给老外看。老外的回应也可以录音翻译成中文,让你能在完全不懂英文的情况下和老外完成交流。


就连打游戏被老外喷了,都可以掏出手机让歪果仁感受一下智能翻译后的祖安文化。


全世界都在学祖安话,祖安人的话,越来越国际化。


3


接触讯飞这家公司是在几年前,当时我被肩周炎颈椎病折磨的满地打滚,曾经梦想过有躺在床上动动舌头就能写出稿子的装备,我试过Word自带的语音,试过人工智障Siri,然后惊讶的发现原来这个地球上有一个宝藏,叫讯飞。


讯飞听见充分满足了我用嘴码字的愿望,有效的降低了我的手指磨损度,能说出来的绝不动手,一直到现在,讯飞听见出品的APP、M1等产品依然是我创作中经常用到的工具。


虽然我在B站做视频追求的就是一个简单粗暴,生活全靠一张嘴,但是再粗暴的视频也需要加字幕的,有字幕没有字幕的视频在观看的时候完全是两个体验。


如果把字幕一条一条的打上去,光是对时间轴的时间就要耗费几个小时,按这个效率来做的话半老师就再也无法高产似母猪了。


但是,这是一个透视、自瞄、高科技的时代,聪明比努力更重要,所以为了偷懒,我开始用讯飞听见的“听见字幕”,把做好的视频丢进去,就可以自动加上字幕,识别准确率按照讯飞的官方数据高达95%,之后只要简单校对一遍就能直接上传,非常舒服。


最关键的是,这个过程不用开着视频一直看,20分钟的视频5分钟就能录入完成,时间管理能力堪比罗老师。


强烈建议有自己做视频内容的小伙伴能试着用一下,加上字幕,观感真的会好很多。


4


如果有什么是比开会更痛苦的,那么一定是听开会的录音!


我们都知道录音的大部分没什么内容,开会绝大多数时候都在摸鱼,但是大脑里还残存着的印象告诉你有那么几句话特别重要,必须要找出来。


你看半夜办公室冒出的蓝色火光,那就是绝望的拉动进度条的我们头上冒出的恼火。


后来我发现,讯飞听见有专门服务会议的系统,华为和联想都使用过这个系统。


只要把它往旁边一丢,大家在会议室里扯蛋,扯多少它记多少,实时转换成文字,生成会议纪要,还支持中英文互译,效果非常科幻。


录音转文字也有压缩时间效果,一小时的会议录音十几分钟就能转换完毕,事后想要找什么,只要记得大概的关键词就能自己搜,再也不用反复听自己尴尬的发言了。


这个功能不仅仅可以用在公司会议上,还能用在上课时。平时听课笔记做不好不要紧,把每节课的文本都输出出来,再逐条编辑,筛选出重点,比起照相机拍PPT、录音后听录音,梦游一样记笔记要酷的多。


但是,我最喜欢的还是他们的会展服务,看起来逼格实在太高。


这个服务专门为发布会、公开会议、会展做配套,除了做会议记录以外,最闪亮的功能是大屏幕上实时字幕。


像世界人工智能大会、进博会、博鳌论坛、深圳卫视春晚、国际电信联盟……全都有用过讯飞听见的智能会展服务。


去过传统发布会的都知道,有时候台上嘉宾说的东西漏听,是补不回来的,尤其是一些名词,你只能猜测他刚才说了什么,总不可能当着几百人的面举手要求嘉宾重复一遍。


这个会展服务,可以实时将双语字幕放到大屏幕上,一边听一边看,对整理思维流程非常有用。


如果你平时关心发布会,会发现智能会展提供的实时双语字幕已经成了越来越多会展的标配,不要以为后台有人在高速录入,那,就是科技。


5


在技术上,讯飞已经有了一定成果:


2016年,国安智能语音高难度技术评测,讯飞评测效果全面第一。


2019年3月,机器阅读理解国际权威评测SQuAD 2.0任务中科大讯飞再次登顶冠军,并同时在EM和F1两个指标上全球首次均超越人类平均水平,一举创下比赛的全新纪录。


但讯飞为何拥有这种技术,是一个比讯飞的技术更有价值的故事。


科大讯飞的董事长刘庆峰是一个神奇的人。


我看过刘庆峰的采访,在谈到企业经营的时候,他虽然妙语连珠,但是眼睛很平静,整个人的气质看起来就是一个平平无奇的企业家形象。但是谈到技术,谈到做技术的那些岁月,你会突然感觉,他整个人都在发光。


当一个男人像一个孩子谈到自己心爱的玩具一样谈着自己的事业,油腻中年的脸孔上都充满了少年的意气风发。你会情不自禁的被他感染,相信他的眼睛里真的有未来。


1999年,刘庆峰离开中科大,带着一些伙伴开始创业,科大讯飞就此诞生。


很难想象,早在21年前,就已经有这样一群人,去布局语音交互这样的近未来科技。更难以想象的是,就是这么一群人,在一穷二白的情况下,一步一个脚印,走出了今天的成果。


刘庆峰有一段话,我非常喜欢,他说:


“你去找风口这是不对的,只有你喜欢,你去坚持到风口到来的那一天,你可能会成为最大的赢家。”


这几年因为风口来的太多太急,有太多追风口的故事在发生,但这样追逐风口,却只制造了一个又一个泡沫,泡沫破碎后,一切一无所有。


真正推动世界,推动技术进步的,往往就是那些能够坚守自己心爱事业的人。


科大讯飞99年成立,就一直在聚焦语音,他的整个业务链,都建立在语音识别这个核心之上,讯飞听见,又是科大讯飞中最专精语音识别的部分。所以,当世界需要一个新的人机交互方式,世界需要语音操纵的时候,他们自然而然的就脱颖而出。


刘庆峰还有一段话说:“很多科学研究他需要传承的,他可能三年不鸣,甚至十年冷板凳,甚至一辈子冷板凳,你要把这个革命的火种和科学的信念让一代一代人一起(传承下去)。”


华为、小米、字节跳动、360……讯飞能够得到众多头部级公司的青睐,正是因为他们过去积累下的东西,因为这些坚持,他们才能掌握核心科技,才能在技术升级中占据领先地位。


一家拥有技术的公司值得敬畏,但他为了得到这些技术坚持的理念,或许才值得更多创业者借鉴。


6


过去,语音识别这一技术被国外垄断,他们的中文语音识别技术一塌糊涂,但在国内没有好的竞品,以至于在中国横着走。调戏siri就是很多国人对语音交互的唯一理解。


科大讯飞通过这二十年的追赶,逐渐赶上了国外的脚步,在中文语音识别上独占鳌头,甚至在和国外语音识别系统对抗的过程中依然收获不菲。


讯飞听见仅仅在19年就斩获数十个奖项,在中文语音转文字这一领域抢到了领先的地位。


这种领先看起来可能不起眼,但科技的发展,总是由一些散碎的发明组合而成,这些散碎的发明单独很弱小,但组合起来,就将发挥出几何倍数的力量。


当语音交互只能用来当语音输入法打字的时候,恐怕大部分人不会意识到,它还可以成为一个优秀的即时转录、翻译软件用来文字创作。


当讯飞听见给春晚配字幕的时候,恐怕大部分人也意识不到,它将会成为听力障碍者的耳朵。


当会议结束就能用人工智能技术快速输出会议记录的时候,大部分人意识不到这种准确同步背后的技术积累。


小米一直致力于建立自己的AIOT体系,而这个AIOT体系最核心的关键,就是交互的入口,这个入口过去更多是通过手机,现在已经一定范围内转向了语音,未来,势必要彻底倒向语音。


在人机交互的这条路上,人类已经走过了一条很长的路,从打孔纸带,到键盘鼠标,再从键盘鼠标到触摸屏,语音交互,或许是下一个人机交互的入口,它将会彻底改变我们使用电子产品的方式。


而讯飞在语音上的投入,为我们抢下了人机交互时代的入场门票。


如果你问我讯飞是什么,我会告诉你,他们是一群妄人,因为他们试图重修禁忌的巴别塔。


神用语言割裂人,而人将用智慧打破语言的隔阂,重建那个通天的建筑。


这一次,我们不但要建起一个全人类能够自由交流的巴别塔,还要让这塔通到天上去,成为真正的通天塔,去连接我们未曾见过的世界,我们会让电脑听得懂人说话,将AI引入到我们的生活中。


这座通天塔的尽头会是什么?


也许不是天堂,而是更浩瀚更遥远的宇宙,是技术发展的无尽想象,是科学家们脑洞远方的神秘未知,是梦想者顽固的执着。


但这不重要,因为我们知道。


通天塔,就在那里。



-----------------------

公众号:半佛仙人(ID:banfoSB)

B站:硬核的半佛仙人

微博:半佛仙人正在装

知乎:半佛仙人

这是一个神奇的男人,你完全猜不出他会写出什么,他自己也不知道。


长按下图二维码关注,你将感受到一个朋克的灵魂,且每篇文章都有惊喜。


-----------------------

感谢你的阅读,下面是1个抽奖链接按钮,5月6日晚上19点开奖,一共6666元,2020个红包,感谢大家的支持。



点击阅读原文
get讯飞黑科技

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存