探析微信“图片大爆炸”背后的图片文字提取技术和相关专利

Original 李文军 IPRdaily

2024-08-24

#本文仅代表作者观点，不代表IPRdaily立场，未经作者许可，禁止转载#

“一文带你了解微信是如何做到准确提取图片文字的。”

来源：IPRdaily中文网（iprdaily.cn）

作者：李文军

最近，微信在安卓8.0.24正式版更新了新功能，名为“图片大爆炸”。该功能通过长按图片，可以提取到图片上的文字进行后续的复制粘贴以及搜索等操作，有效地解决了以往用户在使用过程中经常遇到的电话号码、快递单号、网址等信息以图片的形式得到而又无法直接使用、需要手动输入的窘迫情形。

图1 微信对话场景

使用微信“图片大爆炸”功能进行图片文字提取

微信图片文字提取功能的操作及界面如图2-图4所示：

点开需要提取文字的图片，长按屏幕上对应该图片的位置，即可出现文字提取操作选择界面；

图2 长按图片导出“提取文字”操作界面

在弹出对话框中选择“提取文字”操作图标，即可在屏幕图片上的文字进行识别或进一步地进行文字涂抹选择；

图3 进行图片文字提取

选择并用手指涂抹想要使用的字段即可供用户轻松的进行“呼叫”、“添加到通讯录”、“复制”、“搜一搜”、“转发”以及“收藏”等操作。

图4 提取出文字支持进一步操作

通过简单的几个步骤就可以轻松地实现图片上文字的提取，不管是字母、数字，还是文字，都可以轻松识别和提取，进行复制粘贴以及搜索等操作。用户使用微信时再也不会遇到图片上的电话号码、快递单号、网址等需要手动输入的窘迫情形。

这一问题的解决大大提高了用户对微信的使用体验，随之而来的是，越来越多的用户对这项技术产生兴趣。

那么微信是如何做到准确提取图片文字的呢？带着这个问题，笔者对腾讯的图片文字提取技术相关专利进行了检索和分析。

腾讯图片文字提取技术专利分析

通过对腾讯的图片文字提取技术相关专利检索发现，腾讯早在微信“图片大爆炸”功能推出之前就已经布局了大量的专利，从2015年至今共布局了36件发明专利。从专利年申请量方面来看，近两年明显较早期多，从授权状况（授权专利按照申请年统计，若某件专利2016年申请，2017年授权，该授权量统计计入2016年）方面来看，腾讯的图片文字提取技术相关专利大部分处于审查状态中，2016年授权率达到66.67%。较多相关技术的积累和专利布局奠定了如今微信“图片大爆炸”功能的问世。

图5 腾讯在图片文字提取技术领域的专利申请趋势及授权状况（申请量:件）

从专利布局的角度研判企业的市场重心，腾讯的36件图片文字提取相关专利主要布局在中国和中国香港，同时通过PCT途径申请专利。

图6 腾讯在图片文字提取技术领域的专利布局地域分布（单位：件）

从专利技术分布的角度研究企业的优势技术，腾讯的36件专利涉及24项专利技术，主要解决识别的准确性、成本、文本内容的私密性以及文本识别过程中文本的翻译效率四个技术问题。

图7 腾讯在图片文字提取技术领域的专利技术功效分布

1) 腾讯聚焦于如何提高图片文字识别准确率的技术问题，申请了20项专利，主要的技术手段为通过文字检测技术手段对图片中的文字进行检测和分析，以及对文本图像进行图像优化和图像分割的处理。其中，专利CN108830186B采用图像优化的技术手段，通过从文本图像中选取已知背景区域，对于文本图像中已知背景区域以外的剩余区域，采用插值算法分别计算这些剩余区域的背景像素值；根据该区域的背景像素值确定文本图像的背景像素值；根据文本图像的原始像素值和背景像素值，对文本图像进行背景减除，得到文本图像的内容图像。这种技术可以克服阴影、边角杂质、纸张颜色等对提取文本内容的影响，使得最终得到的内容图像中的文本内容更加准确、清晰。

图8 专利CN108830186B文字图像背景减除过程示意图

再如专利CN111914825A采用文字检测的技术手段，通过获取包括待识别文字（包括至少一个字符组〔字符组包括至少一个字符〕）的待识别图像，从待识别图像中提取图像特征，并根据图像特征确定待识别文字所对应候选文字的第一编码序列以及第一概率；根据候选文字的第二编码序列，获取候选文字对应的第二概率；根据第一概率和第二概率，从各候选文字的第一编码序列中确定待识别文字对应的目标编码序列，并将目标编码序列所表示的候选文字确定为待识别文字的识别结果。如此，可以有效降低字符组识别出错的几率，进而降低待识别文字识别出错的几率。

图9 专利CN111914825A中待识别文字组成示意图

2) 降低成本方面的专利有1项，通过图像优化的技术手段实现降低成本。

专利CN108304839B，生成目标图像对应的单色分量图像，并根据每个单色分量图像中的角点和端点，在目标图像中划分待识别区域，并基于分类器，计算每个待识别区域分别对应的文字识别概率，并根据文字识别概率在待识别区域中识别文字区域。由于识别角点和端点的过程和计算文字识别概率的过程均可以在大多数用户终端中实现，所以无需部署云端服务器即可在用户终端侧完成对文字区域的准确识别，从而降低了实现成本，也可避免与云端服务器进行数据传输，降低网络流量的消耗。

图10 专利CN108304839B文字图像单色叠加过程示意图

3) 提高文本内容私密性方面的专利有2项，分别通过文字检测和图像分割的技术手段对图像文字进行分类，并加以处理以防范敏感信息的泄露，提高私密性。

例如专利CN111062389A，在通过负样本区域训练得到用于文字识别的第一模型之后，可以在文本区域中包含敏感信息时直接输出设定、输出信息，进而从模型层面避免了识别出文字之后再甄别而造成的敏感信息泄露的风险，提高了信息的私密性。

图11 专利CN111062389A文字识别敏感信息甄别过程示意图

4) 提高翻译效率方面的专利有1项，专利CN112183122A采用文字检测的技术手段对图片进行文字识别，通过对目标图片进行文字识别，得到的文字信息包括至少两个语种的文字（包括语种不为目标语种的文字的情况），对该文字信息中的语种不为目标语种的文字进行机器翻译，得到并显示目标语种的文字信息，达到了不用手工输入即可对外文文字进行翻译的目的，从而实现了提高外文文字翻译效率的技术效果，进而解决了由于现有技术中翻译软件需要人工输入，造成的外文文字翻译效率低的技术问题。

图12 专利CN112183122A文字识别翻译示意图

结语

腾讯在图片文字提取技术领域申请了较多的专利，聚焦于如何提高图片文字识别准确率的技术问题，进行了较为全面的技术研发和专利布局，具有比较明显的技术优势。能在实现图片文字提取功能的基础上保持高的图片文字识别准确率，使得微信的图片文字识别功能更贴合用户的使用需求和体验。

（原标题：探析微信“图片大爆炸”背后的图片文字提取技术和相关专利）

来源：IPRdaily中文网（iprdaily.cn）

作者：李文军

编辑：IPRdaily赵甄校对：IPRdaily纵横君

继续滑动看下一个

IPRdaily

向上滑动看下一个

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

探析微信“图片大爆炸”背后的图片文字提取技术和相关专利

您可能也对以下帖子感兴趣

高三女生醉酒后被强奸致死？检方回应

常德悲剧：让谴责无差别杀戮之声更加响亮一点

2024【公共营养师】培训报名通道已开启，不限学历，23岁及以上可报！还能领2000补贴

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋 华人崩溃大哭 连空姐都吐了; 客机颠簸盘旋3小时

女人最偏爱的十种男人

生成图片，分享到微信朋友圈

探析微信“图片大爆炸”背后的图片文字提取技术和相关专利

您可能也对以下帖子感兴趣

【惊】"以为要写遗书"! 飞温哥华航班遇炸弹气旋华人崩溃大哭连空姐都吐了; 客机颠簸盘旋3小时