机器翻译“胡说”系列之七|蔺伟
编者按:机器翻译“胡说”系列是机器翻译圈的一个“头脑风暴”。在这里,所有关注或从事机器翻译相关产品的朋友可以跨越时空、各抒己见,开放、平等、自由地发表自己对机器翻译应用落地的见解。我们相信,每一则真诚的“胡说”都是珍贵的行业观察。
本期作者:蔺伟(Ken Lin),传神语联网副总裁
1.人工翻译的译员单价,最近若干年没有本质变化,既没有增加也没有降低。其原因在于人工翻译的计价规则是成本计价规则,而翻译单价是由译员的生活成本与质量决定的。在活字印刷术发明之前,所有书籍都是人工手抄的。一本书需要抄写1个月,支付1两银子,是因为一个抄写者一个月至少需要1两银子生活。虽然目前生活成本在不断增加,但是CAT技术解决语料的重复使用,以及新的译员不断增加,所以翻译单价提升也很缓慢,甚至随着更多的翻译公司涌现,翻译价格的长期提升本身也违背市场供给规律。
2.随着印刷技术的发明,手工抄写者价值降低,但是信息的传播速度倍速增加。而互联网的电子信息复制和传播速度更快,又替代了一部分印刷行业。而替代的部分就是生命周期本身很短的信息。这些信息本身既不是印刷行业的主要客户,更不是手工抄写者的客户。所以技术的发展,确实替代了一部分职业,同时会产生新的职业,而新的职业从业者超过原有职业者越多,则说明技术的颠覆性越大。
3.机器翻译本身的目标客户群不是译者,译者的总数量太低,没有企业愿意为一个小众2C群体去投入,而且2C市场,除了广告、游戏大规模付费外、其他小规模付费的还有:知识(视频、电子小说等)、娱乐与购物(会员制)等。而译员群体绝对数量少,市场盘子小。同时类似CAT等工具,相互之间差异小,只要有一家CAT公司不收费,CAT就很难有很大的商业空间,除非是羊毛出在猪身上的模式。
4.机器翻译本身也存在同样的挑战,目前各个厂商投入的成本千差万别,但是翻译质量本身远没有数据采购成本、硬件投资成本,人才投资成本的差异大。但凡有一家公司不考虑机器翻译引擎盈利,则其他公司都无法通过单一的机器翻译引擎形成商业模式。虽然通过机器翻译引擎私有部署可以获得一部分营业额空间,但是其商业模式的整体空间还是比较小。可以预见,未来对于机器翻译引擎的投入,各个厂商都会更加谨慎,也许绝对投入还在增加,扩张语种支持范围,但是每个语种的数据投入都会相对减少。毕竟数据采购和算法上没有绝对壁垒,而数据清洗的壁垒在于大量的资金和时间消耗。即使投入大量数据,但是翻译质量随着数据的增加,其价值并不是成正比增加。未来也许可以预见,创新的算法组合和小数据量研究应该成为趋势,大数据大投入至少在目前最多是不要掉队的策略,不得已而为之。
5.AI技术应该更多的与现有应用系统结合,毕竟离开了主机、宽带,软件应用,Intel芯片本身是没有价值的。同样机器翻译技术只有跟应用结合在一起,为客户提供超出以前的价值,客户会为整体应用付费,而不只是为机器翻译引擎付费。
6.与其探讨机器翻译与人工翻译的结合,不如考虑如何通过互联网模式解决人力和机器资源的调度模式。如同共享汽车巨头进入出行市场,切入的方法不是做无人汽车或提高车速到10倍,而是通过高效的调度模式,满足2C的需求。在满足需求的过程中,即使人机没有密切的交互方法,都可以从供给角度满足原来未满足的需求或满足不好的需求。无人汽车不仅仅是技术问题,同时也是法律问题和社会问题。机器翻译引擎本身也是如此,如果是付费模式,则必定出现法律和责任问题。而机器翻译技术的社会问题不仅仅是造成部分译员失业 ,而是对外语教育行业的冲击,从而引发教育行业的社会问题。
7.机器翻译投入的资金,也许分摊到现在外包给人工翻译的字数,单价比人还高。所以仅仅是替代现有人工翻译的文字是很不划算的。而且要不断接近人工翻译质量,还是沿用目前的自然语言技术和购买大量数据,也许成本上远超过人工翻译成本,而且还无法完全没有人的参与。目前人工翻译市场在中国是几百亿级的规模,市场上总体投入机器翻译引擎以及配套的自然语言技术,硬件,人员,宽带等每年投入估计是十亿级的规模,再加上人工译员的成本,面向现在的人工翻译市场,肯定不是最好的选择。
8.但凡是成本计价的商品或服务,说明市场供给多或价值偏低或是一种商业模式的切入阶段。可以类比,一个厂商的机器翻译引擎,就等同于市场上多增加几百万个译员供给。其投入成本越高意味着商业回报期望越大。在目前引擎质量下,人工翻译目前的市场肯定不是回报最大的市场,一定是原来未满足的市场更大。机器翻译与其追求质量的提升,不如追求目前质量下的市场是哪里。
-End-
“胡说”仅代表作者个人观点,不代表任何机构或本公众号立场。转载请后台联系授权。