查看原文
其他

重磅推出|机器翻译利器——CFlab多语种转写系统

天宇宁达 CFlab 2022-10-02


2019年上半年,我司受邀前往某单位提供技术支持,首先提取和恢复文档、表格等各类型文件6万多份,大小共计340GB。其中文件内容是维语、土耳其语和俄语,案件的进一步深入进展需要对文档内容进行理解,但现场没有大量专业的翻译人员。

                           

如果是常规小批量文本翻译,几个翻译人员一周左右也就完成了,可是本次案件需要翻译的文件数量和内容都很多,又涉及到3种语言,几千万个句子,翻译机构给出的时间和报价都是无法接受的。


我司使用CFlab多语种转写系统对案件中的6万多个文件进行处理,仅耗时24小时,就完成了3种语言3千多万词的转写工作,不仅速度快还具有良好的可阅读性。转写后的文件直接导入数据分析系统进行搜索、关联等操作,最终分析出案件的重要线索和证据


机器翻译目前主要有两种类型,即统计机器翻译(SMT)和神经机器翻译(NMT)。


统计机器翻译(SMT)是目前非限定领域机器翻译中性能较佳的一种方法。统计机器翻译的基本思想是通过对大量的平行语料进行统计分析,构建统计翻译模型,进而使用此模型进行翻译。从早期基于词的机器翻译已经过渡到基于短语的翻译,并正在融合句法信息,以进一步提高翻译的精确性。


神经机器翻译(NMT),是使用人工神经网络来提高翻译的流畅度和准确性。神经机器翻译通过应用基于实例的(EBMT)机器翻译方法来改进翻译质量,系统会从数百万个示例中学习。随着大型端到端框架的发展,系统会随着时间的推移学习,做出更好,更自然的翻译。


但无论是哪种机器翻译,都存在着译文生硬难读,只译字意,不解句意的问题。有鉴于此,CFlab多语种转写系统想到将两种翻译类型结合起来,通过统计模型提高翻译准确度,并利用神经网络的深度学习来完善翻译效果。




CFlab 多语种转写系统目前支持英语、西班牙语、德语、法语、俄语、阿拉伯语、葡萄牙语、日语、韩语、维语、捷克语、意大利语、越南语、土耳其语、丹麦语、保加利亚语、波兰语、荷兰语、藏语共18种语言(后续还会持续增加语种支持)。


系统采用离线语言库,无需担心翻译资料泄密问题。采用GPU加速技术,翻译速度最高可达5000单词/秒。深度学习用户使用场景中的专业词汇和特定词组。同时支持批量文档翻译和即时文字翻译。

 

       

为了应对案件中可能遇到的纸质书面文档,系统还专门配置了高速文档扫描仪,以便快速将书面文字内容扫描并进行翻译。


为了保持文档的阅读体验,系统拥有特色功能,如果翻译原文为Office系列电子文档,如Word、Excel等,系统可按照原格式进行输出,以方便对复杂结构文档(图、文、表)的理解。

 


目前,CFlab 多语种转写系统包括便携版、阵地版和服务器版3个产品系列,可广泛应用于公安、军队、院校、科研机构等需要批量处理外文材料,又不方便外聘翻译人员或联网翻译的机构单位。

便携版

阵地版

服务版

支持语言种类数量

18选3

18选6

18

支持多格式电子文档转写

支持图片内容识别转写

支持纸质文档扫描转写

支持一键翻译

支持按文件原版式转写排版

支持即时输入翻译和文件转写

支持多用户并行翻译

X

翻译速度

>300单词/秒

>1500单词/秒

>5000单词/秒

系统主机

小型便携机

定制工作站

机架式服务器

支持用户数

1

5

10

时转写文档数量

1

10

50

 

长按二维码关注我们

电话:010-51315906


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存