用Python&Tesseract识别图片文字

2018-01-23 刘志军 Python爱好者社区

作者：刘志军，6年+Python使用经验，高级开发工程师，目前在互联网医疗行业从事Web系统构架工作

个人公众号：Python之禅（微信ID：vttalk）

题图：https://unsplash.com/@alvaroserrano

在一个项目中遇到这样的需求，要把一堆图片中的文字识别出来并分门别类地保存数据库，上万字纯手工敲是下下策，网上有很多图片转文字的在线服务，单张图转没什么问题，可惜大批量的图缺乏定制化，爱捣鼓的程序员还是自己动手靠谱，开源项目 Tesseract 专用于 OCR 识别，它的应用场景非常多，比如验证码识别、车牌识别、普通的文字图片识别都不是问题。

安装

Linux 和 Mac 平台的安装非常简单，直接命令行安装即可，默认只有英文语言包，汉语包需要额外指定

sudo apt-get install tesseract-ocr # ubuntu

brew install tesseract # macOS

Windows 平台需要二进制安装包，官方下载地址 https://github.com/tesseract-ocr/tesseract/wiki/4.0-with-LSTM#400-alpha-for-windows，安装时需要选择中文语言包才是识别汉字

配置

安装完成后，需要设置两个环境变量 $PATH 和 $TESSDATA_PREFIX，如果不指定后面会报错，把 tessertact 的安装路径加入 PATH 变量中，TESSDATA_PREFIX 变量的值指定为语言包的路径

实战

Python-tesseract 是 tessertact 的 Python 封装包，它需要依赖图片处理库 PIL（Pillow），环境搭建完成后就可以开始做定制化开发了。

以下我以杜甫的《登高》作为 demo 从中提取出其中的文字

# pip install pytesseract 先安装依赖包
try:
import Image
except ImportError:
from PIL import Image
import pytesseract
# lang 指定中文简体
text = pytesseract.image_to_string(Image.open('dufu-denggao1.jpeg'), lang='chi_sim')
print(text)

输出结果：

风急天高猿哨哀 , 渚清沙白鸟飞回。无边落木萧萧下 , 不尽长江滚滚来。万里悲秋常作客 , 百年多病独登台。艰难苦恨繁霜鬓 , 漫倒新停浊酒杯。

你可以根据自己的业务需求进行自定义开发，为了适应不同的环境下的图片，你可能需要了解更多 Tesseract 的API，以此来提高文字识别的准确率。如果你有兴趣，甚至基于公众号开发，用户上传图片，自动识别出文字，提供收费服务也不是没有可能。

关于Tesseract

Tesseract 有超过 30 年的历史，它最早诞生于HP实验室，在 2005 年，Tesseract由美国内华达州信息技术研究所获得，其后由 Google 赞助进行后续的开发和维护。

下面的几篇 Tesseract 相关的论文非常适合研究生做课题设计

WIKI：https://github.com/tesseract-ocr/tesseract/wiki
论文：https://github.com/lzjun567/the-Papers-and-Data-of-Tesseract-OCR-

Python爱好者社区历史文章大合集：

Python爱好者社区历史文章列表（每周append更新一次）

福利：文末扫码立刻关注公众号，“Python爱好者社区”，开始学习Python课程：

关注后在公众号内回复“课程”即可获取：

小编的Python入门视频课程！！！

崔老师爬虫实战案例免费学习视频。

丘老师数据科学入门指导免费学习视频。

陈老师数据分析报告制作免费学习视频。

玩转大数据分析！Spark2.X+Python 精华实战课程免费学习视频。

丘老师Python网络爬虫实战免费学习视频。

故意按摩让女生“产生欲望”后发生关系，算性侵吗？

洗牌电商圈！阿哲放话全网：挑战抖音所有机制！爆全品类大牌！

阿哲现身评论区，@一修！肉肉痛哭，无限期停播！回应舆论黑料，关闭私信评论区！

登热榜！某牙电母被S，榜一求爱遭拒！柚柚阿哲合体年度走红毯！

小敏感喊话阿哲，出镜抖音！欠钱不还，小白龙再被扒借贷官司！