查看原文
其他

PDF表格识别-史上最强-没有之一

大地质家 大地质家 2021-09-21



点击上方“大地质家”关注我们


沉积岩、岩浆岩、变质岩等各类科技论文中存在大量数据——过半数据集中在表格中。

面对动辄几十,多则几百个,甚至几页的PDF文档,科研工作者只能寄希望于文档格式转换工具。

可为什么转换出来的文档总不能让人满意?

你曾遇到过这些情况吗?

文档转化出来全是乱码;

表格格式混乱;

数据重叠;

.........

完全无法使用

面对这种问题,有办法解决吗?

PDFlux  不仅仅是智能识别

随着大数据、云计算、区块链和人工智能等前沿技术的不断迭代和使用革新,小编一直在路上,致力于怎么能应用python智能处理这些数据,然而,研究后发现这是一个非常复杂的问题,想法总是简单了点,试过了很多识别方法之后,很不理想!今天给大家的这款工具可以说是很好的解决了这一问题!


软件是免费试用的,赠送的金币足够个人日常使用!


PDFlux是由庖丁科技研发的一款在充分运用深度学习技术的基础上,准确高效地实现对付格式文档中非/半结构化表格的抽取,并录入相应数据库的产品。


目前用户可在https://pdflux.com/微信扫码登录在线使用PDFlux;或直接下载客户端使用;也可在微信公众号“大地质家”中回复“表格识别”获取链接和客户端。


——“大地质家”


数据收集不再是困扰!

结合视觉解析与自然语言处理技术——

有线框表格识别,正确率已达到99.9%以上!

无线框表格识别,正确率已达到97%以上!

01

网页版

微信登录网页版后,如下图所示,点击“上传文档”即可;同一账户可随时查看历史记录。


文档上传成功后,系统开始对文档进行解析,解析完成可点击“查看结果”按钮查看解析情况。

若不满意当前页面的解析结果,可在查看结果页面内,点击“单页解析”按钮重新解析当前页面,点击“复制表格内容”可将解析完成的表格粘贴到Word、Excel、PPT等格式文档中进行使用。

02

客户端

微信扫码进入客户端,可查看最近打开文件的历史记录。下图为顶部工具栏和左侧工具栏功能展示情况。

复制与批量复制


智能识别-支持提取多栏文档中的表格,并保留字号、合并等格式信息


对于PDF文档内容,可通过“OCR识别文字”功能对文档内容进行识别,在系统内对识别后的内容进行编辑,保证输出结果可直接使用。


如需批量复制文档内容,可点击“批量复制”按钮,再点击顶部浮框中的复制按钮即可粘贴到Excel、Word、PPT等中。


部分文档中列示的表格会以纵向展示,此时可点击“页面旋转”按钮,旋转至正常视角;对于扫描件,支持自定义角度旋转,使其旋转到需要的位置。

用户可通过分享邀请码邀请他人使用PDFlux,被邀请人在客户端验证成功后,双方都可获得100金币奖励。

每天登陆也可获得20-50个金币。

别浪费你的头脑在copy这件事上

麻烦的表格请交给PDFlux!

软件获取方式:关注微信公众号『大地质家』,后台聊天界面回复『表格识别』,即可获取!


更多实用软件和教程请点击公众号右下角“使用说明”,海量百度网盘资源请在后台聊天界面回复“666”!


点击左下角“阅读原文”,可在本公众号内搜索!

往期教程:

1-如何利用DGSGIS下载影像 

2-DGSGIS矢栅一体化显示

3-原始图件颜色库转换

4-如何加载并导出全国地质资料馆公开地图?

5-如何下载全球矢量地图?

6-岩石地球化学数据处理软件,你知道几个?

7-Arcgis免插件加载在线地图

有任何问题,请点击右下角使用说明,联系小编!



: . Video Mini Program Like ,轻点两下取消赞 Wow ,轻点两下取消在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存