查看原文
其他

2019西湖机器翻译论坛的几点杂感

李光华 机器翻译观察 2022-04-24

2019机器翻译论坛5月25日在杭州西湖大学召开,第二天还有部分代表在西溪湿地自由讨论。跟关注机器翻译应用落地的朋友,到场没到场的,分享几点收获和零碎想法:

1、如果用户问,机器翻译这几年发展到什么程度了?这是一个直观有说服力的好方式:展示用同一个句子跟踪了7年的机翻效果(下图来自中科院自动化所宗成庆)。

2、通用的翻译系统只能像全科医生,提供社区医院服务,解决一些头疼脑热的问题,面向用户定制的翻译系统才像专科医生,提供比较专业的诊疗服务(中科院自动化所宗成庆)。

3、和上一点相关:目前垂直领域翻译系统翻译质量并不比通用翻译系统的质量高(对外经贸大学崔启亮),因为一些所谓的垂直领域只能算泛垂直领域,训练用的数据和通用数据差别并不大。目前对用户有意义的机翻系统分类还是两类:一类是通用的,也是免费的(社区医院),另一类是针对用户、甚至由用户提供私有数据定制的,也是付费的(专科医生)。专业领域数据门槛的原因,专科医院的发展之路还需要时间。

4、很难想象一个技术细节(比如指代消歧),研究人员的投入和背后的社会成本。从50-60年前开始的机器翻译研发,经历规则、统计、神经网络的阶段,从“傻子”到“疯子”、再到通用领域达到初级译员水平,今天的落地应用已经站在巨人的肩膀上。

5、数据驱动的方法用于机器翻译之后,多年前给外语人打酱油、写语言规则写到生无可恋、做出来的系统还没人用——曾经想过转行的机翻技术专家终于守得云开见月明。而目前部分外语人为算法工程师打酱油——标注数据、做评测。没有任何有色眼镜的意思(笔者也是外语出身),只是感叹某些事情发展方向谁能预料?如果不能预料,不如做跟随自己的热情埋头做一些事。

6、做翻译机的讯飞赚钱了(讯飞听见王玮)。查了下2018科大讯飞年报,讯飞翻译机销售30万台,占品类销售额70%。如果按照单价3000元算,总销售额是9亿人民币。做翻译机起家的创业公司分音塔科技2017年底已经Pre-A轮,估值3亿,后来跟进得比较好的也是互联网公司。为什么做成这件事的既不是机器翻译公司、也不是人工翻译公司?很奇怪,其实也不奇怪,机器翻译公司和人工翻译公司因为自己的“专业”原因,看不见比自己目标用户群大至少一个数量级的用户群。

7、神州泰岳李国东老师的报告分享了他作为投资人看NLP项目的诀窍:找到这个小圈子的老专家(不超过10位),然后确认要投的项目团队里有没有这几位老专家的徒子徒孙,否则基本可以判断为伪NLP项目。

8、关于现在的翻译服务,想起一个钻孔机的例子:如果用户来买钻孔机,那么他想买的真的是钻孔机吗?还是墙上的那个孔?改进翻译工具很重要,提升机翻质量很重要,让翻译工具触达用户也很重要,但我们是否忘了用户需要的其实是那个孔?如果这样,工具不应该只停留在工具和效率层面,而是从资源角度综合考虑翻译服务问题。当然,先做好钻孔机才有机会谈下一步。

9、Lilt的Spence Green非常强调目前的PE(译后编辑)会导致血汗工厂(sweatshop work)生产模式。但如果对译者的付费方式不再按照字数付费,而是按照译后编辑时长付费,是否已经很大程度上解决问题?这方面MemoQ已经在探索10、一个确定的演化方向是:翻译工具不会仅仅是译者的专业工具,它会成为各行各业专业人士的基础工具。目前构成译者专业核心的三个能力是语言、工具、领域知识,而未来的三个核心能力可能是:领域知识、领域知识、领域知识。

11、问:下一代机器翻译技术会是什么样子?

答:是这一代机器翻译技术专家无法预测的样子。因为前两代被颠覆的规则机器翻译和统计机器翻译技术,其颠覆者都不是从事机器翻译的(阿里巴巴达摩院陈博兴)。

12、以上只是一些零散的记录和思考,记录的部分嘉宾言论,都注明了出处。没有注明出处的,可以理解为胡说~

-End-

1、欢迎关注后续官方发布的现场报道,官方论坛《2019西湖机器翻译论坛》:http://mtforum.niutrans.com/index.html。

2、现场完整视频回放链接:http://ttv.cn/archives/4042 或点击“阅读原文”跳转,来自译直播。

3、关于交互式机器翻译,有兴趣的朋友可以参考:《交互式机器翻译产品的商业逻辑》、《人机交互式机器翻译研究与应用》

4、如果这块砖能引来玉,有朋友愿意发表感想,本公众号很乐意做一个发布渠道。

-End-

【往期精选】

2018机器翻译产品全景图

机器翻译什么时候跟人工翻译一样好

2019机器翻译“胡说”系列之八|周兴华

2019机器翻译“胡说”系列之七|蔺伟

2019机器翻译“胡说”系列之六|江伟

2019机器翻译“胡说”系列之五|邹剑宇

2019机器翻译“胡说”系列之四|袁行远

2019机器翻译“胡说”系列之三|李光华

2018机器翻译“胡说”系列之二|娄东来、黄国平、魏勇鹏

2018机器翻译“胡说”系列之一|朱靖波、崔启亮、韦忠和

2019全球语言服务业的一组关键数据

2019全球语言服务供应商名录

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存