案例演示 | PDF双语文档转换成XLS表格形式
1.1纯文字文档
对于纯文字文档,无论内容如何排版(双语双侧对照、一段中文一段英文对照、整篇中文整篇英文对照),首先删除不需要的信息,包括脚注、页码、标题、注释等。这一步可以通过PDF编辑器来完成(Adobe、WPS等),也可以转换后再删除无关信息,但这样会影响转换的正确率。因此建议先删除无用信息再进行转化。
1.1.1左右两栏对照的双语文本
图1-1包含无关内容的左右两栏对照的双语文本
在该案例中,转换使用的软件为Adobe Acrobat,这是一款功能十分强大的软件,可对PDF进行多种处理。Adobe可在Mac系统和Windows系统上使用,但由于目前只能集体购买软件,个人可以在网上找到绿色版本,便足以满足需求(涉及保密内容慎用)!
首先,用Adobe打开要转换的PDF文件,在右侧工具栏选择“导出PDF”。
图1-2在Adobe中选择“导出PDF”
接着直接选择第二个文件类型,便可得到XLS文件,可用Excel直接打开。
图1-3选择导出第二个文件格式
获得的文件在Excel打开如图。这时的XLS文件几乎和原文格式一致,只需修改表格名称和文件名称即可,便可作为一个单机小型语料库。
图1-4转换后的XLS文件
但要注意,XLS文件中可能有一些地方中英文并不对应,例如,本该在一个单元格的内容分成了多个单元格,这时只需把内容全部复制到一个单元格中,删除多余的行便可得到格式正确的文档。
注意:不能合并单元格,合并单元格后下面单元格的信息会被覆盖,所以只能手动复制内容再删除多余的行。
图1-5转换后的文件出现中英文不对应的问题
图1-6手动调整格式
对于该案例类型的文本,可用任何一款PDF处理器转换成XLS表格形式,而不仅限于Adobe,也可尝试在线文件转换器和大数据模型(ChatGPT等)。
Adobe的优点:处理速度快、步骤简单、(破解版)便宜
Adobe的缺点:对原文档格式要求较高、产出的文档可能会有不对齐的情况,需要手动调整。
1.1.2一段中文一段英文对照的双语文本
如果是这类型的源文件,直接转换为XLS表格形式,效果可能不佳,后续处理会很麻烦。
图1-7段落上下对照的PDF文档直接转换为XLS文档
因此,一个笨拙的办法是先把PDF转换成Word文档,进而利用Word自带的“文字转表格”功能,转换为Word中的表格形式,进而转回PDF文档再转成XLS表格形式。PDF转Word文档方法与1.1.1中转成XLS文档类似,只需在格式转换时选择“Word文档”即可。
在Word中,利用自带的“文字转表格”功能把内容转成表格的形式。先选择要转换的内容,然后“插入——表格——文字转表格”。
图1-8 word自带的“文字转表格”功能
设置好转换成表格的格式。
图1-9设置转换后的表格形式
但是转换成表格后,也会出现格式不正确的问题,这是由于原文的格式没有处理好(即从PDF转换而成的Word没有正确分段)。所以在使用“文字转换成表格”功能前,需要手动整理原文格式,建议删除空行,否则空行会被识别为一段。
图1-10转换后的表格格式不对应
图1-11未删除空行的情形
图1-12正确处理后的表格形式
然后把该Word文档转换成PDF文档,再转换成XLS表格形式。
优点:不需要额外多余的软件,只需一个PDF编辑器
缺点:麻烦、费事、消耗人工、更多适用于较短且原文格式良好的文本
1.1.3整篇中文整篇英文对照的双语文本
对于这类型的文本,直接分别把中英文复制到Excel表格中即可建立XLS表格形式文件,但需注意原文的格式正确,包括段落正确分段,没有空行。
优点:简单、不需要额外软件
缺点:对原文格式要求高、内容过多时可能不容易操作
1.2包含图片等多样形式的复杂文本
对于同时有图片、公式、脚注等的复杂文本,例如学术论文等,需要借助更专业和高级的PDF文档处理器。这里介绍的是ABBYY FinerReader PDF,但该软件是付费软件,有7天、100页的免费试用版,同时有Mac和Windows系统版本。(案例展示的为Windows系统版本,且原文本为复杂的段度对照双语文本)
图1-13在ABBYY中打开PDF文件
图1-14打卡界面
在左侧的页面管理中,右键单击页面,选择分析页面,软件可以分析划分当前页面的区域,包括文字区域、表格区域、图片区域等。
图1-15选择“分析页面”
图1-16 “页面分析”后的视图
分析页面后,每一页的不同区域都用不同颜色标注,绿色一般为文字区域,红色一般为图片区域。右键单击图片区域,选择删除,便可将图片区域删除(为选中),只留些文字区域。
图1-17只保留文字区域
留下全部所需文字区域后,便可导出文件。由于案例中的文本为段落对照的复杂文本,因此先导出为Word文档,再用1.1.2中的方法转换成XLS表格形式。
图1-18保存导出文档
如果原文档本身含有所需的表格,便可以选择删除其他区域,保留表格区域,然后直接导出为XLS表格文件。
关于把PDF双语文档转换成XLS表格形式的文档,还可以借助大数据模型,例如ChatGPT 4.0,上传源文件,说明要求,便可获得想要的文档格式。但是,目前大多数可(免费)获取的大数据模型都不具备这一功能,不能直接把PDF文件转为XLS表格文件,但可以把PDF文件中的内容提取进行分列,我们可以手动复制粘贴到Excel表格中,以此形成XLS表格文件。
例如,借助Perplexity,我们把PDF文件内容提取出来,分成两列,然后手动复制粘贴到Excel表格中。
Prompt:Can you transform this file into a xls document with Chinese and English put in two columns separately and with each paragraph occupying one unit?
图1-19利用Perplexity提取PDF文档内容并分列
特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。
原创来源/原创作者:北外CAT课程-语料库技术-2024春-小组成员:曹瑞恩 卓书妙 黄书婷
推文编辑:仇旻鸿
审核:程海东 代霄彦
文章推荐:
【02】Microsoft Office和WPS中大语言模型插件初探
【04】教你如何使用 Copilot
【05】ChatGPT 和 Gemini 达到专八水平了吗?
【06】国外主流翻译APP
【07】国内主流翻译APP工具
【08】在Trados中利用TM做预翻译
【09】平行语料库在口译实践中的应用
【10】语料库探索之语料对齐及分词赋码
【11】语料处理之语料采集与清洗
【14】国内外常见语料工具一览
【15】翻译人员不容错过的5个权威术语库
【16】国内外常见CAT工具一览
【18】Quicker使用技巧
【22】TermWiki:术语检索利器
【24】ChatGPT + Word = 高效办公
【25】如何利用聊天机器人制作双语术语表
【26】 ChatGPT在译前准备中的应用——术语准备
【27】投喂语料,提升译文质量
【28】(一)结合ChatGPT的译前编辑初探
【29】ChatGPT最新接入word方法(完美debug)
【30】AI外语写作助手,助力高效写作
【31】探索ChatGPT在翻译过程中的应用
【32】中科院学术优化本地部署
如您喜欢我们的内容,欢迎您点赞、在看、转发,更多问题可后台留言小编哦
资讯推荐
点个关注再走吧