2020年语言服务展望之二|吴永波:5G元年开启语言数字世界的下一个十年
Editor's Note
21世纪的第二个十年已然开启,我们汇集推出“2020年语言服务业展望系列”。这些来自语言服务专业人士不同视角的观察和思考,值得我们关注和记录。
The following article is from 语道智能 Author 吴永波
一、引子:时代大势从5G谈起
从农业文明到工业文明再到信息文明时代,物理世界和数字世界、实体经济和数字经济的日趋融合,助力时代、社会和各行各业实现数字化和智能化,人类的生产生活方式日益改变。华为轮值董事长徐直军在新年致辞中表明:未来三十年人类社会必然走向智能社会。数字技术正在重塑世界。
5G是第五代通讯技术的昵称,国际电信联盟(ITU)将其学名定义为“IMT-2020”,意味着其商用元年为2020年。
中国移动官网介绍的5G三大特征如下:
高速率:5G网络速度是4G的10倍以上。1G的文件1-3秒下载完成。
大容量:每平方公里最大支持100万个连接。
低时延:5G时延为1毫秒。人类眨眼和皮肤扎针感知疼痛的时间为100毫秒。
5G将人与人之间的通信扩展到万物互联,打造全联接的数字化社会。5G应用场景无论是物联网、车联网还是工业互联网,无论是智慧城市、智慧家居还是“智慧+”,其本质均是物理世界和数字世界的联接。
根据相关机构测算,未来15年,5G将为全球经济增长贡献超过3万亿美元。到2035年,5G将拥有价值高达12万亿美元的市场规模。到2025年,全球将有超过400个运营商在117个国家和地区运营5G网络,全球5G用户将达到16亿。
今年部分国家和国内部分城市已开展5G试点或部署。全国已开通5G基站12.6万个,2020年底全国所有地级市覆盖5G网络。
华为心声社区公开的信息表明:2009年到2019年,华为在5G领域的研发投入超过了40亿美金,超过了欧美国家主要设备供应商5G研发投资的总和。
全球ICT行业权威咨询公司GlobalData近日发布的2019年下半年《5G接入网(RAN)竞争力分析报告》,对包括华为、爱立信、诺基亚、三星以及中兴在内的全球主流设备商5G RAN产品进行了多维度评估分析。报告显示华为在2019年下半年5G RAN的竞争力综合排名稳居第一。
十年磨一剑,集中40亿美元的炮火攻击同一个城墙口,体现的是华为的高度战略自信。
以任总的假设理论结束引子:“没有正确的假设,就没有正确的方向;没有正确的方向,就没有正确的思想;没有正确的思想,就没有正确的理论;没有正确的理论,就不会有正确的战略”。
二、方向假设:下一个十年,站在5G大树下做语言数据
5G的下一个十年,数字孪生和数字化转型会引爆硬件性能、软件能力、生态构建、应用孵化,未知远远大于已知。探索未来的不确定性虽然很难,但站在未来看现在更具价值,更值得尝试,更有乐趣。
2007年,乔布斯在MacWorld大会上发布iPhone,宣称将淘汰一切使用键盘或触控笔的手机。诺基亚淡定地认为苹果只是昙花一现。有时打败自己的不是对手,而是自己。
4G正改变着生活。BATT(百度、阿里、腾讯、头条)正在改变衣食住行娱的方式。4G时代,互联网OTT创新频出。很多人都有出差几次不用花一分现金的经历。机票或高铁票支付、酒店预订、打车、就餐等均可用手机扫码支付。即便下楼到小卖部忘记带手机,收银阿姨也会提醒说:你可以刷脸啊。群里发个广告,还要给大家发个红包抢枪。过安检闸机刷身份证即可。这些看得gai见的联接,背后都是数据在系统内外的频繁交互。
5G将改变社会。中国有超大城市群、超大人口流量、超大经济规模。超大物流、人流、车流、资金流、信息流融入二进制数字孪生。每一个货物、每一个人、每一辆车、每一笔交易、每一条知识,都是一个个动态变化的数据集合。当日益丰富的场景及联接引爆算力需求时,5G作为基础设施的重要性必将显现,将进一步突破人与人、人与物、物与物连接的时空边界。
人和人之间的通信联接依赖的是系统设备间交互的3GPP标准协议数据;人机间的交互联接依赖的是文本、语音;机机交互基于约定标准接口的高度结构化数据。
潇洒地挥手告别过去,积极地拥抱未来和变化,跟紧时代步伐和趋势,或许才不会被拍在沙滩上。
产业转型升级、产业跨界融合及数字社会构建大势的下一个十年,包括语言数据在内的各类场景必将更加丰富。我赌5G并愿意站在5G大树下做语言数据。
三、客户对语言服务多快好省的需求不会变化
回归语言服务及语言数据正题。
在万物感知、万物互联和万物智能的数字孪生时代,客户对以语言转换为中心的传统笔译、口译、本地化及配套的排版等服务,并不会降低质量要求,反倒是平台型企业和生态型产品正出现苛求质量的趋势。毕竟一个小小的翻译错误,或许会被无限放大,成为别有用途的媒体或利益团队攻击的靶子。
中国企业走出去触发的新一轮全球化浪潮,也不会允许劣质翻译,不会等待长翻译交付周期,当然也不会支付超出预算或期望值的费用。
语言服务企业仍将继续像过去一样面临十字路口的选择:是向流程前端和客户侧靠近,转型拓展价值定价的蓝海业务,还是停留在流程末端继续在红海里厮杀。
翻译末端这片红海千百年来,除介质和作业工具在变化外,多快好省的需求本质未曾有变化。
客户侧的需求,随时代大势,随市场环境,随技术迭代却在不停的变化。工业革命4.0、5G、第三代机器翻译、Trados 2020版……无不在貌离神合地纠缠在一起。
高处风起云涌,地表平静如镜。上浮或下沉,这是一个问题。
四、工具厂商以助力企业减员降本增效为中心
工具厂商或企业工具团队的本质工作是减员降本增效,缩短翻译作品交付周期进而缩短产品上市周期(TTM)、增强产品竞争力,同时降低员工工作强度。
目前几乎所有的翻译类辅助工具都有替代产品,无论是在全流程的哪一个节点,但每一类头部工具其实也就是那么一两个。
工具的选型对中国走出去企业或任何一家企业都不难。难的是头部工具不喜欢定制,而尾部工具又太灵活或匹配不上企业方在解决方案层面的业务诉求。
五、语言数据以用户为中心
用户在哪里数据就在哪里。译员有译员的需求,教师有教师的科研需求,高管有高管的需求,企业的某一块业务owner代表所负责的业务有自己的需求。用户的诉求是差异化、多模态的,且经常是感性和模糊的。既可能是纸质书籍的扫描,也可能是网络资源的采集,亦或是线上或线下的共享、交易。
用户自身获取和处理数据的方式也千差万别,既有纯手工操作,也有工具熟手,更有开发高手。
六、语言数据以语言工作者为中心
有的翻译公司强调资深译审的作用,有的本地化公司依赖PM的能力,也有的公司迷恋工具的价值。
从语言数据角度,译员既是数据最直接的生产者,也是数据使用者。翻译首先以译员为中心。如果把译员的翻译过程进行拆解,一句话或一个文档的翻译由阅读理解原文、查询答疑求证、同行评审切磋、经验总结分享等节点组成,翻译的结果质量是由过程质量决定的。从时间分配上,预留给译员的时间理应最为充裕。客户投诉经常是由于压缩翻译时间引起。原文错误的识别处理,身体、家庭、办公环境、同事关系等因素对译员心理的影响等,也将最终反映在翻译交付质量及语料质量中。
万物互联新时代的丰富场景需要多模态语言数据,这些差异化的需求扩大了翻译的外延,正催生新的岗位如采集、评测、标注。有的类型的语料供给,不一定必须由科班出身的大学生完成,比如某方言语音数据采集,就可以由本地菜场的大妈提供地地道道的样本。
语言无处不在,出现在人们的衣食住行娱及工作的各种可能场所和场景。每个人都可以成为语言工作者。
《人生初年》力作的主人公李宇明教授、白丰兰老师、冬冬30多年坚持记录家庭语言和生活叙事,同样是当之无愧的语言工作者。书中记录的数据我相信是这个世界上独一无二的鲜活数据。
七、语言类学生以语言文化能力为中心
包括MTI学生在内,其硬核是自幼儿园起就开始“习得”的语言文化能力(competency),这一习得过程通常持续至少12年。
工具技能(skill)或某类技巧(trick)固然重要比如搜索。从工具应用的角度,目前任何一款行业领先的翻译辅助软件,其学习周期均不会超过一个月,多数工具就像微软Word,唯手熟尔。
工具厂商、自媒体及代理机构或代言人,出于商业目的可能会夸大工具和技术的作用和价值,具有较强的带入感。
每年毕业的百万语言类学生,毕业后继续从事语言相关的工作的比例几何,继续做翻译的比例几何,既能做翻译又能熟练使用工具还能编程的又有几个?
乱花渐欲迷人眼。没有工具高手的高校外院,其实不用焦虑和横向比较,教好语言本身已经很不容易了。而语言能力是几乎目前发布的所有职位说明书(JD)中最核心的首选能力,是应聘翻译类岗位的敲门砖。
八、语言数据的时效性和更新维护成本
既然语言数据是在各行各业各类场景的业务流程中产生,必然存在全生命周期管理问题,也就是说语料就像生老病死一样,会产生、使用和消亡(即废弃)。
先以专有名词为例。
企事业单位的组织结构调整,意味着去年还在使用的名称,今年已经更换。
公司改改名字,不只是把产品界面、系统数据修改一下,还需要更换门口的招牌、工商税务社保信息,发布公告声明,是系统性工作。公司名称的改变,也经常是其战略方向等方面的调整。
2019年12月18日召开的海信第四次临时股东大会审议通过公司中文名称由“青岛海信电器股份有限公司”变更为“海信视像科技股份有限公司”,英文名称由“Qingdao Hisense Electronics Co., Ltd。”变更为“Hisense Visual Technology Co., Ltd。”,并相应修订《公司章程》。据悉,同日海信已完成变更内容的工商登记手续,并取得青岛市市场监督管理局颁发的《营业执照》。此前的12月2日,海信拟更名公告称:“公司已从单一的电视产品制造企业逐渐发展成为集视像技术研发应用,全场景云平台运营为一体的综合解决方案提供商,变更是为了更好反映公司主营业务和战略定位。”
城市和国家名称亦有改换。比如汉城改为首尔时有去汉化的讨论。荷兰(Holland)将更名为尼德兰(Netherlands),背后的动机也很狗血复杂。据报道:荷兰政府所有公司、大学、使馆及政府机构统一改用新名,并将投入20万欧元改善国际形象。
九、语言数据获取难度和复杂度增加
在谷歌和百度等互联网一统江湖的时代,只要是公开网页的数据,谁都可以获取到,今天亦是如此。
但是,在移动互联网时代,各类数据逐步聚集在一个一个的平台,形成数据孤岛,比如电商平台、社交平台、短视频平台、应用市场、操作系统生态等。
以社交平台为例,由于消息时效性、所公开的圈子范围、评论的开放度等差异,其数据的获取难度比传统互联网时代加大。
此外,国家和地区及用户对数据安全的敏感度在提升,数据合规也将增加数据获取、使用、交易的复杂度。
十、结尾:观点和展望
如果说我们用情怀和报酬还能说服80后去做枯燥的语料采集、标注、纠错、PE等各种,日益成为主力的新生代90、00后是否还愿意承担?
语言数据工作尤其是语料处理,需要所见即所得的可视化、娱乐化装备,以及随需可取的沉浸式体验。
语道对语言数据的部分观点如下,仅供探讨:
解决方案层:语料全生命周期管理(LCM)
策略层:采集到入库Collection2Database(C2D)、采集到产品、采集到项目课题申报,既满足行业应用需求,又满足科研需求。
操作层:语料采集模型Data Collection Model (DCM)、数据加工漏斗Data Processing Funnel (DPF)
内容层:语料数据配方Language Data Recipe (LDR)、关键信息元素Key Information Element (KIE)
体验层:数据采集体验Data Collection Experience (DCE)、翻译工具体验Translation Toolkit Experience (TTE)
住处隔壁的武警宿舍在火热地跨年联欢。让我想起又到了年终总结的时候。虽然不需要再去写新年致辞,但回顾过往向前看却也是经年不变的主题。
感叹于世界的不确定性、时代大势、平台的封闭、割裂的生态、生活的奔波,编辑此杂文,也算作对下半年所会、所见、所想的一次梳理。
语言数据智能路阻且长,但行者将至。我愿做数据的追随者。
【往期精选】
2020语言服务展望之一|蒙永业:2020中国语言服务行业发展趋势
机器翻译全球市场观察|Unbabel获6000万美元C轮融资
机器翻译全球市场观察|Videolocalize发布多语配音平台
机器翻译全球市场观察|金融机器翻译公司Lingua Custodia