BiCorpus:一款开源语言资产管理平台,让每一位译者拥有自己的在线语料库
背景
在《译者编程入门指南》中我介绍了如何开发一个线上的翻译记忆库,但毕竟是编程入门学习,所以这个翻译记忆库建成后仅可用于非常基本的翻译记忆上传和查询。
在疫情爆发后,很多小伙伴和我一起创建了BiCovid.org这个线上的疫情双语数据分享平台,具体如下:
虽然现在我们已经停止上传数据了,但是平均每月都还有1000多人使用这个网站,月平均访问量是2000次左右:
其实一直我都想让每一位译者或小型翻译团队都能拥有这样一个网站,用来管理手中的语言资产。但实在是太忙了,尤其是这一年一直都在忙冬奥术语平台的事情,连写代码的时间都很少。
今天北京下雨了,我决定把这件事儿做了。
一、BiCorpus核心功能
BiCovid.org网站上有不少实验性的功能,有些徒有其表,不适合放在普适性的BiCorpus版本中,所以BiCorpus的核心功能精简后大致如下:
首页
第一次安装完开始使用时首页确实如上图这样空空如也,因为我们并没有上传任何数据,这个就要留给大家去体验第一份数据上传之后的喜悦。
登录
点击登录页面后可以通过输入用户名和密码登录。
默认用户名密码是:admin / BiCorpus2021!
需要注意的是:为了方便第一次使用这个平台的用户操作,目前所有的密码是以明文的形式保存的,所有的成员都是由管理员添加,且管理员可以看到所有人的密码。
登录后的页面如下:
上传数据
所有数据均需要通过tmx格式上传,以确保所有数据是经过对齐软件处理的。
在后台的“操作”菜单下选择“上传”:
在上传页面可以填写翻译记忆库的领域、文件说明,通过点击“选择文件”来选择你的翻译记忆文件,在“选择语言对”的下拉菜单中可以根据翻译记忆文件的语言对来选择对应的语言对:
选择语言对:
上传示例:Demo.tmx
如上示例所示,这个文件的源语言是zh-CN,目标语言是en-US,所以在上传时可以选择:中英
如果语言对选择错误则会提示“语言对错误,请重试”:
所有上传的文件均会在源代码的upload文件夹中备份,防止数据源丢失。
如果语言对正确,则会看到每行数据的检查结果:
可以据此查看是否有错误的未能成功上传的数据。
审核数据
数据上传后并不会立刻被公开检索到,管理员需要点击“操作”下的“审核”,前往审核页面:
在审核页面可以点击“预览”来预览数据:
在这个页面中如何发现有数据错误,可以点击“编辑”来修改具体的翻译单元:
更新成功后会提示“翻译单元更新成功”:
如果想删除某个翻译单元,可以点击“删除”,删除成功后会有提示:
删除文件
如果管理员预览数据后发现数据不值得发布,可以点击“删除”,但此时这个文件并不会从数据库中删除,而是状态修改为“待删除”,管理员依然可以预览其中的数据。
审核意见
如果管理员希望告知上传用户审核意见,可以点击最后一栏进入审核意见编辑状态:
发布后意见展示如下:
发布数据
点击“发布”可以发布数据:
发布成功后会显示“已发布”:
但如果数据有问题,还可以点击“撤回”:
撤回后数据重新进入“未发布”状态。
查询数据
已发布的数据就可以在首页公开查询了:
下载数据
如果觉得某个数据非常有价值,想下载下来导入到计算机辅助翻译工具中,可以点击前面的“ID”,进入翻译记忆库下载页面:
点击“下载”即可以将整个文件下载下来。
数据查错
建议每位用户在上传数据前提前去“操作”下的“检查TMX”页面确认数据文件没有问题:
假设我们将测试文件中的一个译文删除,再上传:
此时网站会提示具体哪一行数据出现了什么问题。
而且网站还会计算原文和译文的长度比例,如果比例异常,还会提示状态错误:
在页面的最下方会对全部错误信息进行整合:
数据查重
为了确保不上传重复的数据,请前往“操作”下的“查重”:
将文本粘贴进去后会点击“开始查重”:
如果有相似的句子会提示“查看相似”,点击后查看相似内容。
编辑数据
数据发布后也是可以继续编辑的,点击“操作”下的“编辑”,进入编辑页面:
在这个页面中可以通过检索定位到指定数据,然后进行编辑和删除操作。
语言门户
在BiCorpus的首页可以查询全部语种的数据,而在菜单栏中可以前往特定语言的语言门户仅查询特定语言对的数据:
BiCorpus支持非常便捷的新增语言对操作,但是需要调整一部分的代码,感兴趣的用户可以及时关注《译者编程入门指南》读者群中的讨论。
加群请联系《译者编程入门指南》助教的微信:CodeSlator
管理团队
BiCorpus支持管理员添加团队成员,共同上传数据。点击顶部菜单栏的的“团队”:
在该页面可以设置用户的用户名、姓名、单位、密码和用户类型。
添加团队成员时,用户名使用英文、姓名使用真实姓名或昵称、单位填写成员所属单位、密码为大写数字标点符号构成的复杂密码、用户类型填写数字“2”。
设置完成后点击“创建”:
用户成功添加后便可以前往主页登录。
登录后的页面与管理员有一定区别,主要是:
团队成员可以前往“操作”下的“审核状态”中查看自己上传数据的审核状态。其余操作与管理员基本一致。
成果展示
所有团队成员的成果在团队内部是共享的,团队成员点击“团队”后可以查看团队的全部成员列表:
点击“查看”后可以查看该成员上传的全部数据:
公开权限
本次提供的源代码默认全部数据都是公开可查的,但是对于有些小型团队而言,他们仅希望在团队内部共享数据,此时需要做的是在源代码中将index.php页面的:
include "shared/config.php";
改为:
header("location: login.php");
如下图:
修改完成后每当非登录用户访问网站主页均会自动跳转至登录页面,一旦登录后便可以正常访问网站主页。
二、安装BiCorpus
第一步:配置环境
如果您只想在个人电脑上安装BiCorpus,仅用于在个人电脑上管理翻译记忆库,则需要下载XAMPP或MAMP Pro等环境工具。
建议Windows用户安装XAMPP,建议Mac用户安装MAMP Pro。
在我的B站中我也介绍如何安装和启用XAMPP:
https://www.bilibili.com/video/BV1M7411c7BT?p=8
第二步:下载BiCorpus
BiCorpus的源代码已经全部上传至Github:
https://github.com/hanlintao/BiCorpus
点击“Code”下的“Download ZIP”即可打包下载到本地:
第三步:安装
请关注“简言”后续发布的文章,我将详细介绍如何安装和配置BiCorpus,超级超级简单。
如果你希望单独购买域名和服务器或者将BiCorpus安装自己的服务器上,也可以提前观看以下视频:
https://www.bilibili.com/video/BV1M7411c7BT?p=2
如果你想了解BiCorpus是如何开发出来的,可以先学习《译者编程入门指南》,然后加入读者群,与其他读者一同讨论相关问题。
加群请联系《译者编程入门指南》助教的微信:CodeSlator
三、结语
对BiCorpus感兴趣的朋友可以继续关注“简言”,有什么问题也可以随时联系我。我真心希望越来越多的个人译者和小型翻译团队能够通过包括BiCorpus在内的工具管理好自己的宝贵的语言资产。