Vedastr：基于PyTorch的场景文本识别工具箱

CV开发者都爱看的极市平台 2021-09-20

加入极市专业CV交流群，与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流！
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总，行业技术交流。关注 极市平台 公众号，回复 加群，立刻申请入群~

就在明天，极市平台与重磅邀请到ICML 2020杰出论文一作魏恺轩，为我们深度讲解论文相关工作：免调试即插即用的近端优化算法。请大家锁定直播时间7月22日（周三）20:00。详情戳这里，在极市平台后台回复“62”，即可获取直播链接。本次直播由极市平台和中国图象图形学学会青年工作委员联合组织。

1. Vedastr的特性

STR(Scene Text Recognition)的任务是识别文字框中的内容。我们在做关于STR的项目时发现，相关开源的toolbox较少，调研后发现现有的toolbox存在以下几个问题：

模块化程度较低
提供可配置接口较少
更新维护较少

基于此，我们在调研了一系列的STR相关论文的基础上，构建了一个基于PyTorch的STR的toolbox——Vedastr，具有以下几个特性：

模块化
易拓展性
配置简单
较完善的日志系统
及时的更新维护

Vedastr项目链接：

https://github.com/Media-Smart/vedastr

2. Vedastr的运行方式

2.1 配置文件

Vedastr提供了开放式接口，可以在config文件配置相关参数。比如，我们配置optimizer和learning rate scheduler的参数：

optimizer = dict(type='Adam', lr=0.001)lr_scheduler = dict(type='StepLR', max_epochs=3, milestones=[100000, 200000])

2.2 Train、test和demo

Train

python tools/train.py config-path

Test

python tools/test.py config-path checkpoint-path

Demo

python tools/demo.py config-path checkpoint-path img-path

3. 预训练模型

3.1 使用Vedastr复现的模型性能

Vedastr目前支持基于attention、ctc、fc和transformer的str方法。我们复现了几个STR模型，你可以在Benchmark and model zoo找到他们。下面是我们的一些复现指标：

TPS-ResNet-BiLSTM-Attention：What Is Wrong With Scene Text Recognition Model Comparisons?
Small-SATRN：On Recognizing Texts of Arbitrary Shapes with 2D Self-Attention

3.2 使用预训练模型实现一个demo

举个简单的例子：

下载 TPS-ResNet-BiLSTM-Attention
下载vedastr，按照Installation进行安装
激活conda环境，运行demo文件，识别的结果就会显示在你的终端窗口上

python tools/demo.py configs/tps-resnet-bilstm-attention TPS-ResNet-BiLSTM-Attention.pth input-img

input-img:

终端窗口：

Vedastr项目链接如下，欢迎使用和star！

https://github.com/Media-Smart/vedastr

推荐阅读

添加极市小助手微信（ID : cv-mart），备注：研究方向-姓名-学校/公司-城市（如：目标检测-小极-北大-深圳），即可申请加入极市技术交流群，更有每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、行业技术交流，一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台，获取最新CV干货

觉得有用麻烦给个在看啦~

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

反向激励，在加速这个社会的黑化

🪁来汕头，实现“露营自由”

微信潜规则：你发的朋友圈，其实别人看不见。

方志远：不能指望借助古人的智慧、指望倡导古人的精神来解决现实的问题

阿哲发圈点赞大太子！杰哥爆电母X视频，曝瓜三平台年度电母！

Vedastr：基于PyTorch的场景文本识别工具箱

1. Vedastr的特性

2. Vedastr的运行方式

3. 预训练模型

比OCR更强大的PPT图片一键转文档重建技术

文字识别方法全面整理

ECCV2020｜PlugNet：可插拔的超分辨学习单元文本识别，解决低质量图像识别难题

您可能也对以下帖子感兴趣

反向激励，在加速这个社会的黑化

🪁来汕头，实现“露营自由”

微信潜规则：你发的朋友圈，其实别人看不见。

方志远：不能指望借助古人的智慧、指望倡导古人的精神来解决现实的问题

阿哲发圈点赞大太子！杰哥爆电母X视频，曝瓜三平台年度电母！

生成图片，分享到微信朋友圈

Vedastr：基于PyTorch的场景文本识别工具箱

1. Vedastr的特性

2. Vedastr的运行方式

3. 预训练模型

比OCR更强大的PPT图片一键转文档重建技术

文字识别方法全面整理

ECCV2020｜PlugNet：可插拔的超分辨学习单元文本识别，解决低质量图像识别难题

您可能也对以下帖子感兴趣