查看原文
其他

建议收藏!PDF阅读最优化,这些民间的大神自制软件,神了!

砺心 阿虚同学
2024-08-25

阿虚同学

读完需要

11分钟

速读仅需 9 分钟

有粉丝留言说他百度搜索PDF优化/编辑,结果只找到一大堆在线网页,主要还都是按月/文件收费...

就问我有没有免费的方案?

PDF优化这个问题,主要需求无非就是将模糊的PDF清晰化,即解决一些扫描版PDF字体发灰、发虚的问题

▲类似这种PDF

当然给扫描版PDF添加书签、进行OCR使得文字可复制、压缩PDF文件大小这些也属于PDF优化的范畴,既然都写到这儿了,阿虚这篇文章也就一并介绍一下吧

文中涉及到的所有软件下载地址,请统一看文末!!!

1


   

改善PDF清晰度

首先我们说提高PDF清晰度,针对的都是扫描版PDF哈(非扫描版PDF都是矢量的也没这些问题)

而扫描版PDF每一页就是图片,所以我们的问题其实是如何提高图片的清晰度

1.1


  

PDF转图片

那我们第一步需要做的就是PDF转图片,然后尽管是扫描版PDF,也要分几种情况:

  1. 文件本身分辨率不太够

  2. 文件本身分辨率足够,且每一页都是完整的图片

  3. 文件本身分辨率足够,但每一页可能不是完整图片,即页面中包含小插图

文件本身分辨率不太够

比如像下面这种PDF,本身分辨率就不太高,放大了看,字体边缘明显都是模糊的

这种情况用第三方软件处理通常无法导出原图,甚至可能进一步损失画质

所以阿虚建议是使用 Acrobat 打开PDF,然后点击文件 » 导出到 » 图像 » PNG(无损图片格式)

然后设置导出文件夹时,进一步点击设置,将转换这里的分辨率设置为236.22像素/厘米(再大其实就没必要了,这样分辨率已经相当之大了)

文件本身分辨率足够

这种其实算是最常见的情况,就是PDF单纯是有点字体发灰,本身清晰度是足够的


这里你自然也可以用 Acrobat 进行PDF转图片,但 Acrobat 有个缺点就是转图片的速度相当之慢,如果你的 PDF 页数很多,你可以阿虚之前就介绍过的免费工具 PDF补丁丁 进行转换,速度快得多

文件本身分辨率足够,页面中包含小图

最后有一种比较少见的情况——就是PDF每一页不是完整图片,可能是含小插图

这种情况如果你使用PDF补丁丁提取图片,就会发现它会提取出了出各页插入的小图片

所以这种情况也建议用 Acrobat DC 将整页处理成图片,同样建议使用「236.22 像素/厘米」的分辨率进行导出


1.2


  

图片清晰化

图片无损放大

对于上面提到的第一种情况,就是文件本身分辨率不够高的,我们可能需要用专门的软件提高一下图片清晰度,这个阿虚之前也有专门写过:

不过上文介绍的多款软件中,有且仅有 Topaz Gigapixel AI 适合处理扫描文字这种图片(其他适合处理动漫、真人类图片,对扫描文字图片没啥效果)

在用 Topaz Gigapixel AI 清晰化图片过程中,需要注意右边 Resize Mode 最好改为自定义倍数 1 倍,AI Model 这里选择 Very Compressed,你可以同时添加多个图片进行批量处理

▲点击查看大图

不过除了 Topaz Gigapixel AI,在最近推出的 AI 图片放大清晰化软件中,还有一款名为 upscayl 的开源软件也有适合处理扫描文字图片的模型

这款软件的汉化版下载地址,阿虚已经更新到之前图片清晰化放大那期文章的软件下载页面了(👈可直接点开蓝色链接看置顶留言)

软件使用没啥好说的,记住模型选择数字艺术即可,本身是支持批量添加文件夹处理图片,唯一需要注意的就是最好先去设置中将图片放大比例改为1x,同时把图片压缩开到100%(不这样操作的话出图会非常慢+生成文件巨大)

对比一下处理前后效果,还是相当不错的,字体边缘模糊显然少了很多

▲左:处理前/右:处理后

图片灰度调整

好在扫描件分辨率不够的情况是少数,毕竟用上面的图片清晰化软件处理图片,电脑配置要是不行是非常费时间的!

多数情况下,其实我们只需要给扫描件的图片调个色就足够了,这里有一款经无数网友、PDF爱好者实测推荐的神器——ComicEnhancer Pro

虽然实际上这款软件开发的初衷是增强漫画阅读体验(从软件名也看得出),但由于它处理图片画面的功能十分强大,结果完全符合我们PDF优化的需求

由于每本书的情况不一样,具体参数并不固定,阿虚这里仅大概说明一下使用方法,大家可以根据情况自行改动参数调整到自己满意哈,首先打开软件点击文件 » 扫描书籍处理

打开页面之后,在左上角可以添加图片文件夹,左下方点击图像即可调整画面效果

其实多数情况下,我们只需要简单的把Gamma值拉大(不一定拉满,不同的文件按实际情况调节),再将曲线中改为原画面背景杂乱(曲线这里也可以手动拉滑块调整),你就能明显看到画面清晰了不少

视情况而定可以适当调节一些其他选项,例如亮度、对比度,不过更多可能是进一步调整一下锐化、柔化,还有就是可以尝试调节选项里面的多尺度细节增强(这个变化不明显,但有用)

最后就是建议保存格式选无损,JPG质量也拉到100,然后记住要点击应用 » 应用到所有图像,最后点击保存按钮旁边的灰色按钮,即可进行批量处理与保存

额外补充一点,如果你想要最后生成的PDF文件占用小一点,可以点击色彩,将色彩数改为纯黑白(600KB 的 JPG如果是纯文本,用这个方式处理就成了60KB)

这里选择的算法并不固定,可以自己凭感觉来,不过可以尝试阈值算法选择Wolf,然后窗口尺寸尽量大一点可以选500,最后去除毛刺一般都要勾上


1.3


  

图片合并为PDF

图片都处理完之后,剩下的就简单了——我们再将图片合并为PDF即可

这里我们依然可以用PDF补丁丁来合并图片成PDF,如果你之前提取的图片大小并不统一,我们可以设置合并PDF的选项,一般选A4或者A5


2


   

添加PDF书签

2.1


  

原PDF有书签

虽说是添加书签哈,但其实如今不少扫描版PDF也是自带目录的,这里我们依然可以用PDF补丁丁导出原PDF的书签目录

然后在合并处理后的图片时,添加上从原PDF导出的书签文件即可~

只有这个软件能够合并分割完毕后还能保留原有的书签目录,其他软件都会丢失!

2.2


  

原PDF无书签

不过就算原PDF没有书签,也不必担心,我们大概率是可以在京东、当当、百度百科、豆瓣读书等网站轻松找到电子书目录的

PDF补丁丁

然后添加书签这里我们甚至依然可以用PDF补丁丁来进行(没错这款软件就是这么全能)

首先,我们用PDF补丁丁打开文件之后,别的不好说,先点击❌删掉默认的书签

接着去网上复制完整的书签目录过来,点击粘贴按钮(Ctrl+P)到软件当中

注意:部分网站复制来的目录信息可能会有错,比如百度百科因为加了注释上标,在PDF补丁丁内可能会识别成空页码,这个需要自己手动处理一下

然后因为书籍都有封面、前言、序这些,网上的目录肯定是不能直接对上的,我们需要手动调整页码误差

比如阿虚这本书,网上复制来的目录第1页,实际对应的是PDF文件第28页了,那我们就需要在PDF补丁丁里 Ctlr+A 全选所有目录,右键选择更改目标页码,增减指定数值,填27

注意:网上的目录信息并不一定完全正确,比如阿虚上面演示的这个PDF,在1.2.1节之后,对应的页码就少了1页,需要你自己再手动调整一下后面部分对应的页码

这样处理之后我们的目录就和实际页面一一对应上了,不过到这里还没完,现在的目录没有层级结构,不是非常直观

我们可以像下面这样一点点手动给目录添加层级结构,这一步就需要自己多费点时间了,全部添加完之后,记得点击左上角的保存按钮保存为新PDF


PdgCntEditor

不过如果你能找到的PDF目录信息是下面这种格式,其实是可以靠另外一款名为 PdgCntEditor 的软件来直接自动生成层级结构的

打开 PdgCntEditor 后,我们直接将PDF文件拖入即可打开,然后还是一样的,删掉默认的目录信息,粘贴网上你找来的目录信息

不过相比PDF补丁丁, PdgCntEditor 存在个问题就是从网上复制来的目录信息通常会出现空行,遇到这种情况我们需要用 PdgCntEditor 的正则表达式功能去除换行

打开正则表达式功能,填入这串字符^\s*$,然后点击替换即可去掉所有的空行了

去掉空行之后,还是和之前一样,我们得校准页面误差,不过 PdgCntEditor 这个基准页的概念稍为复杂一点,阿虚举两个例子你方便大家理解

但假如获取到的目录页是5,而实际PDF的页数是14,那么基准页那里就要填10

剩下的步骤就简单了,上面也说了,满足目录格式的情况下,我们用 PdgCntEditor 自动就能完成缩进快速排版目录书签(注意从网上扒下来的目录信息多数需要先点击切分页码)

当然 PdgCntEditor 也是可以手动进行目录层级结构缩进的,点击切换到树形编辑模式,操作起来就很简单轻松

操作方法和PDF补丁丁无异:

最后就是 PdgCntEditor 也是可以处理页面错位这种情况的,只需要用到下面这个功能


3


   

PDF文字OCR

书签有了,画面也清晰了,那我们的扫描版PDF和普通PDF最大的区别可能就只剩文字无法复制了(或者称之为双层PDF)

3.1


  

Acrobat

这一步我们可以用免费的 Acrobat 来实现,用 Acrobat 打开 PDF 之后找到扫描和OCR,选择识别文本 » 本文件 » 所有页面,然后耐心等待程序自动识别即可

同时注意,OCR识别完成之后,一定要点击另存为,否则你费老半天时间识别好的PDF可能就丢了


3.2


  

批量转双层PDF

另外微信公众号@托马了个羊原创了一款批量PDF识别OCR工具,调用百度飞桨的离线OCR引擎,对中文的识别率算是相当不错

整个软件使用也简单到不行,选择待批量处理的文件夹,然后点击开始再耐心等待即可


3.3


  

简可信

除了 Acrobat,北京盖亚软件有限公司非常良心的开发了一款完全免费的PDF批量OCR识别软件,简可信:http://www.gaya-soft.cn/

使用 Tesseract5 API, 速度快,质量高,支持多线程处理!缺点就是对比下来识别效果不如上述两款软件

另外除了上述工具,ABBYY 、PDFelement 也是不错的 PDF OCR 工具,耐心点你应该能在网上找到免费版,阿虚这里迫于一些原因就不提供了

至此,你终于做出了一份文字清晰、带书签目录、文字可复制、文件本身占用小的优化后PDF啦~

最后,统一给一下本文提到的软件的下载地址

不过由于有人持续对公众号自动回复进行举报,遂暂时不再通过公众号自动回复提供软件下载,后续阿虚会把资源下载地址提供在文章置顶留言。若置顶留言也被和谐的话,请到储物间右上角,搜索以下关键词获取资源:

PDF优化



继续滑动看下一个
阿虚同学
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存