行业观察 | 大型语言模型在雅信诚医学翻译中的实践,机遇与挑战
01
大型语言模型简介
随着算力的不断提升,语言模型已经从最初基于概率预测的模型发展到基于Transformer架构的预训练语言模型,并逐步走向大模型的时代。
那么什么是大模型呢?大型语言模型 (Large Language Model,LLM),是使用深度学习算法处理和理解自然语言的基础机器学习模型。通常是在大量通用文本数据上进行训练,用以学习语言中的模式和实体关系。
大型语言模型研究遵循最初的Transformer架构,然后开始向两个方向延伸:第一,用于预测建模任务(如文本分类、内容提取等)的Transformer及其变种;第二,用于生成建模任务(如翻译、摘要和其他形式的文本创建)的Transformer及其变种。
由编码器和解码器组成的原始Transformer架构:
图源:https://arxiv.org/abs/1706.03762
BERT是一种掩码语言模型,被认为是一种双向Transformer,常被用于进行分类任务。
GPT是一种流行的解码器风格的架构,它是通过下一个单词预测进行预训练的,该模型通常情况被用于进行文本或图片的生产。
02
语言模型的应用
随着人工智能的技术发展,语言模型正在为搜索引擎、自然语言处理、医疗、机器人、代码生成等领域开辟新的可能性。例如,在生物医药翻译领域,常见的语言模型的应用包括:机器翻译、文本分类及质量评价等。
机器翻译
提到Transformer架构,不得不提的就是神经网络机器翻译。目前不使用Transformer进行训练的模型几乎绝迹。以生物医药领域为例,该领域具有丰富的文本,因而非常适合进行专业领域的机翻训练,但同时生物医药翻译的特殊性也造成了大量的数据稀疏问题。而通用预训练语言模型能够解决这一问题,也将会一定程度的提示机器翻译的准确度。
文本分类
在专业翻译领域,将客户提供的文件精准定位到其适合的团队是直接影响译文质量的关键一环。通常情况下项目经理需要根据经验判断当前稿件任务是否与该团队的擅长领域、译员的质量水平、任务紧急程度及团队当前任务进度等多方面因素相匹配,若判断失误则会造成项目经理人为判断的标准不统一。使用基于预训练模型的推荐系统不仅可以解决基础的文本分类问题,而且在微调中加入更多的影响因素,并能够根据生产情况向模型持续提供更新数据,将会为项目标准化管理提供有力的参考。
质量评价
翻译生产中每一流程都会对前一流程进行质量评价,因此通过利用评价产生的大量修改数据使团队或个人有针对性的进行刻意练习,是培训系统非常重要的关注点。通常情况下,公司的内部培训及工作经验的累积会让收集上来的数据非常稀疏,而具有分类预测的语言模型可以在这方面提供助力。
论文/译文润色
自然语言生成的基本思路是通过下一个单词预测进行训练。基于这种思路,生成式语言模型可以在很多领域发挥作用。如:训练机器翻译模型,再根据实际审校译文进行调优,甚至针对更细分领域训练专用模型;根据目标语言的语言模型进行论文润色,内容甚至风格/格式的初步调整也是生成式语言模型擅长的。
03
雅信诚在语言模型上的实践
雅信诚在20余年的专业领域翻译的沉淀下,对应用语言模型做过诸多尝试:
命名实体识别
雅信诚与清华大学合作利用biobert模型进行命名实体识别,帮助翻译审校人员迅速定位句段关键信息。
图源:雅信诚命名实体识别系统
术语提取
利用biobert模型提取原文术语并在机器翻译引擎中进行术语干预确保机器翻译输出译文保持术语一致性。
图源:雅信诚自研机翻翻译应用系统
MTPE
同时给出多个机器翻译结果和术语结果辅助翻译减小编辑距离。
图源:雅信诚自研计算机辅助翻译系统
质量评价
利用语言模型在翻译期间标记关键因素,在翻译过程中进行单句质量检查。利用词性标注给出关键理解点,并进行数字质控。
图源:雅信诚自研计算机辅助翻译系统
04
现有大型语言模型
应用到生物医药翻译的考量
随着ChatGPT爆火出圈,国内很多高校、研究机构和企业都发出类似ChatGPT的发布计划。然而,生成式预训练模型由于其本身的语言模型属性仍然会给翻译行业带来如下担忧:
数据安全问题
随着国家对数据安全的重视,翻译企业也更注重强化数据安全治理,让数据真正成为资产,这点在涉密较深的生物医药领域尤为明显。目前大型语言模型的训练需要大量的优质数据,而这些优质数据本身就是翻译企业的核心资产,如何使用数据训练或微调模型是生物医药翻译企业能否使用非自研的生成式预训练模型的关键。
从翻译的角度,涉密文件只能使用公司内部经验证的机器翻译引擎进行翻译。从生物医药的角度,在保障客户数据安全可控且符合相关法规及伦理要求的前提下才可以考虑使用模型。
质量不稳定问题
几乎所有的数据驱动的语言模型都会有质量不稳定的情况,因此如何制定相应的评价标准,如何选择出编辑距离最小的译文是使用大型语言模型进行翻译的关键。同时,模型是否能够方便快速的反应质量调优也是评价模型的关键指标。
训练成本
扩展和维护大型语言模型是一件困难且昂贵的事。大型语言模型训练需要大量数据,但开发者和企业发现想要获得足够多的数据集十分困难。当前,生物医药领域翻译正在进入微利润或无利润的阶段,高昂的模型费用,更加严格的质量要求对翻译企业的挑战是巨大的。
人才培养
每一次的技术革新对人才的冲击都是巨大的。市场的压力、KPI的压力再加上技术革新带来的压力让初级翻译人员培养难度大大增加。如何将似是而非的机翻结果调整成合格的译文,这不仅需要翻译人员的努力,更需要企业的正确引导。如何构建一套相对完善的非固化或半固化流程,如何在每个基础翻译工作中让团队有所成长,如何使用新技术等等,这些问题不仅是翻译企业应当考虑的问题,翻译院校也应在人才培养方面有所调整。
05
总结
那么面对市场的我们应该怎么做呢?
首先,应在生产中兼顾数据标注工作,充分认识数据资产的重要性,并开发更多的数据应用工具。
其次,认清专业领域的翻译工作永远离不开人工确认这最后一公里,沉下心来做好当下的任务,时刻保持自己的好奇心要比担忧技术的冲击更重要。
最后,不得不说小而美的专业领域语言模型才是翻译公司和客户需要的语言模型。
声明:本公众号转载此文章是出于传播行业资讯、洞见之目的,如有侵犯到您的合法权益,请致信:chongchong@lingotek.cn,我们将及时调整处理。谢谢支持!
-END-
本文转载自:雅信诚医学翻译转载编辑:Pickey
往期回顾
行业动向1. 行业动态 | 全国翻译专业教指委2023年第一次主任委员会议在京召开2. 行业资讯丨2023年度国家社会科学基金项目申报公告正式发布!
3. 行业动态 | 未来已来:翻译技术主题论坛圆满举办4. 行业资讯 | 高校学科专业改革方案来了!
5. 行业资讯 | 3月翻译技术和本地化类公众号影响力排行榜新鲜出炉!
行业洞见
行业技术
技术应用 | 游戏本地化时,如何基于Key ID或注释筛选句段并锁定句段? 技术应用|iTranslate:一款小众的翻译工具 技术应用 | WIPO Translate:一键Get即时专利翻译小能手 ChatGPT | ChatGPT的万能提问咒语 ChatGPT | 韩林涛:写给MTI同学们的ChatGPT类工具使用要求
精品课程
4月工作坊|图书翻译与项目申报工作坊即将开课 五一研修 | ChatGPT时代翻译技术北京线下班 精品课程 | 外语人如何使用ChatGPT优化机器翻译质量 云端实习营,带你在实践中学习翻译技术~ 一天一块钱,承包全年全方位语言服务知识学习!
资源干货
双语干货 |《全球发展新时代的金砖合作调查报告2022》 资源宝库 | 最全对外汉语教学资源网站 资源宝库 | 学位论文如何写出新意—PQDT搜索教程 资源宝库 | ChatGPT参加MTI复试问答:个人生活篇 双语干货 | 习近平主席五次“博鳌演讲”金句汇总
招聘就业1. 招聘快报 | 神州数码招聘英语翻译
2. 招聘快报 | 韩语、葡语口译招募3. 就业干货 | 理工科也能做翻译吗?4. 不知道去哪找优质实习?硬核语言专业线上实习机会来了!5. 实习资讯 | 疫情阻隔优质实习?硬核语言专业线上实习机会来了!