查看原文
其他

【战“疫”案例展】腾讯——“智能复学码”科技抗疫公益案例

腾讯 数据猿 2022-07-20





腾讯案例

本项目由腾讯投递并参与“数据猿行业盘点季大型主题策划活动—— #榜样的力量# 《新冠战“疫”——中国数据智能产业最具社会责任感企业》榜单/奖项”评选。

数据智能产业创新服务媒体

——聚焦数智 · 改变商业




01

疫情形式向好,复工复学提上日程


2022疫情的反复,导致全国多地反复陷入“停工停学”的状态。在疫情得到逐步控制的过程中,迫切希望将“复工复学”提上日程的广大政府、企事业单位、院校、公益组织和大众群体面临庞大的健康信息收集、申报、跟踪、统计工作:例如学校、单位等往往需要提前收集与确认相关成员的健康信息,包括健康码、行程码、核酸监测结果等。往往这些工作都是老师、社区工作者、行政 HR 等手动、人工完成,工作量巨大且十分繁复,同时在精准性上不容有失。

02

为防止疫情反扑及隐匿传播,做好健康信息统计工作至关重要


为保障各地“复工复学”工作的顺利进行,将“隐匿传播”扼杀在摇篮之中,腾讯问卷团队结合成员切身需求——腾讯问卷疫情健康申报服务项目应运而生,如何将自动识别图片信息的能力与问卷已有的表单收集能力结合起来、并为问卷管理员提供高效准确的统计服务成为项目的重中之重。

腾讯问卷联合腾讯云微搭、腾讯云 AI、优图、腾讯技术公益团队推出的疫情健康申报服务,便是基于表单收集与数据统计功能,在腾讯云微搭低代码能力的支持下,通过腾讯云 AI 的OCR文字识别技术,实现快速识别健康码、行程码、核酸检测、抗原检测结果等各类截图。

项目开发起止时间:

开始时间:2022年4月14日

截止时间:针对全国不同地区持续开发优化中

服务周期:服务中

应用场景


1. 主要应用场景

疫情健康服务主要应用于疫情之下的复工、复学场景,帮助有需求的政府机构、教育单位、企业及其他社会组织进行复工、复学健康情况统计。

2. 用户需求

·统计端:通常情况下,复工复学需要管理人员逐人逐图检查健康防疫信息,人工工作量大,且有出错、遗漏的可能性。

·上传端:返校、复工时,大家需要配合各种健康信息申报要求,如连续3 天,每天提交小与同住人的各种截图,有的被要求拼图提交,有的被要求打包上传。对用户尤其是广大家长们有一定的操作难度。

3. 服务优势

相比群接龙、在线文档类竞品解决用户大范围收集图片的问题,腾讯问卷疫情健康服务的创新点在于通过 OCR 文字识别技术,将健康码等图片的信息智能识别出来,快速判断图片的信息是否存在异常情况,同时可基于填报名单实时统计填答进度,较大程度解放了单位管理人员的工作量,在提升统计效率、准确度方面提供助力。

附:视频说明

面临挑战


1. 社会需求紧迫,可供研发的时间紧急

从发现广泛的社会需求到最紧急的深圳地区复学窗口期,只有短短48小时的时间留给技术团队进行开发。

2. 需要迅速完成图像识别能力的集成

腾讯问卷本身并没有图像识别能力,如何快速开发/集成相关能力,为后续开发及训练工作争取时间成为当务之急。

3. 图像识别应用需要大量的开发、模型训练工作

对于智能图像识别,除了需要快速搭建模型框架,还需要大量的样本供模型进行识别。

健康码、行程卡等截图识别中,各省市健康码的版式,字段规则并不一致,通过文字识别结果的正则提取较为繁琐,难以应对。

相比健康码、行程卡识别,抗原检测识别遇到的挑战更多:例如检测结果多样,抗原检测结果分阴性,阳性,弱阳,以及两种无效5种类型;照片质量参差不齐,多数用户背景环境复杂,光线,清晰度大多不理想,不利于识别;训练样本较少,早期抗原棒普及程度较低,全网阳性样本收集数据不足50份,无效样本不足10份。

技术开发过程


1. 核心思路

产品方案核心思路是打通问卷创建➡分享➡投放➡回收➡查看统计➡催答的健康信息申报全流程,帮助老师/行政管理人员(编辑端)快速收集相关人员的健康信息,实时了解填答进度,并且通过智能识别获取健康信息异常名单,方便进行催答或上报。

同时也通过问卷的形式规范家长、员工等人员(填答端)提交指定内容,不漏填错填,也能方便补交。


(功能截图)

2. 整体技术方案AI智能识别能力实现与能力开放输出开展

1)AI 智能识别能力实现

健康码、行程卡等截图识别

由于各省市健康码的版式,字段规则并不一致,通过文字识别结果的正则提取较为繁琐,难以应对。腾讯优图算法同学基于智能结构化 OCR,以多模态文档理解的形式,自动提取复杂多变版面的结构化信息。

智能结构化 OCR 结合文档文字内容、图像、版式布局等多模态信息,通过5 亿+大规模文档无监督预训练,结合下游结构化任务微调。单一模型能够兼容 5000+不同版式的文档结构化信息提取。相比于业界其他文档信息提取方法,具有精度高、泛化能力强的特点。

健康码识别场景,待提取的字段相对固定,主要包括:健康码颜色、持码人姓名、持码人身份证号、亮码时间等。由于不同城市的健康码版式不一致,且字段名称及字段内容格式不同,通用的智能结构化模型在直接使用时,需要对于字段名称进行格式化。

不同地区的健康码,包含的字段内容有所不同:


(各地健康码示例)

针对该类问题,算法同学提出通过智能结构化的语言理解模型学习字段不同表示之间的内在联系,自动做到字段名称格式化处理,即智能结构化含标签模式。该方案在通用智能结构化基础上,通过字段的标签信息(字段归一化名称)先验信息,引导结构化结果输出。通过单一结构化模型,兼容不同城市的健康码,同时也极大便利了字段扩展(例如扩展检测时间、失效时间等字段)。最终取得健康码场景高指标、高泛化的效果。

(粤康码效果展示)


(随申码效果展示)

抗原检测照片识别

相比健康码、行程卡识别,抗原检测识别遇到的挑战更多——

检测结果多样,抗原检测结果分阴性,阳性,弱阳,以及两种无效 5 种类型;

照片质量参差不齐,多数用户背景环境复杂,光线,清晰度大多不理想,不利于识别;

训练样本较少,早期抗原棒普及程度较低,全网阳性样本收集数据不足50 份,无效样本不足10份。


(抗原检测结果示例)


(抗原检测识别测试素材)

数据收集和增强方面,我们通过对阴性样本进行PS,伪造多张阳性样本和无效样本图片,并且利用图片变形,旋转等手段,将图片数量扩展到万张。

另外通过迁移学习,多模型融合提高抗原识别准确度。用户提供照片中,存在大量无效图片,使用 CNN 模型快速识别出有抗原的照片,提供给下一模型判断。下一模型使用NasNet的预训练模型,在极低学习率下进行迁移学习。

2)能力开放输出

输入输出格式标准化

不同地区健康码中的二维码包含的内容差别也很大,例如粤康码返回的二维码内容可能出现非标准 JSON 字符串;而同样是粤康码,深 i 您和粤省事的粤康码返回的字段内容还会不一致。

因此我们针对二维码内容进行了地区判定,格式标准化,矫正,从而完成健康码信息准确匹配和提取。

业务逻辑封装

完成图片信息处理与识别工作后,我们结合腾讯云 AI 文字识别能力,根据业务需求,将文字识别的结果输出成统一、标准、稳定的数据结构,屏蔽了各地区健康码的文字内容差异,方便拓展支持更多其他疫情相关的产品,降低不同产品间重复沟通、加工数据、联调等开发成本。

应用效果/社会价值


1. 以企业能力回馈助力公共防疫事业,保障“复工复学”工作的顺利进行

新冠疫情战役旷日持久,任何时候都不能掉以轻心。

腾讯问卷将疫情健康申报服务免费开放使用,为抗疫工作提供了为信息统计提效、又能保障个人隐私的工具,希望能承担起企业社会责任,助力公共防疫工作高效、有序开展。

2. 利用数字化能力助力精准防控、节省人力、避免错漏风险

采取人工汇总的方式,除了工作量巨大,也存在看错看漏的风险,一旦出现失误,就可能“前功尽弃”,需要“重头再来”。

腾讯问卷在常规的信息收集与统计能力基础上,结合防疫工作需求,利用图像识别功能,将人工工作转变为自动化工作,并将陆续扩大可支持地区范围,帮助各类一线人员高效、准确、且安全地收集健康信息提供助力。

3. 应用效果显著

本次功能上线一周内,已经帮助广深地区数万用户完成复工、复学等场景的疫情健康申报,获得广泛用户好评。

同时,自2022年以来,腾讯问卷支持疫情相关的问卷共超过68万份,累计回收量超过16.7亿,覆盖全国各地共37万个组织。

关于企业


·腾讯公司

腾讯成立于1998年,总部位于中国深圳。公司一直秉承科技向善的宗旨。信和社交服务连接全球逾10亿人,帮助他们与亲友联系,畅享便捷的出行、支付和娱乐生活。

腾讯还提供云计算、广告、金融科技等一系列企业服务,支持合作伙伴实现数字化转型,促进业务发展。

·腾讯问卷

腾讯问卷是一个专业、灵活、好用的在线问卷调查平台,提供从问卷设计、投放收集到统计分析的一站式专业调查研究服务。目前已经为2354.5万用户回收28亿份问卷。


《2022中国企业数智化转型升级服务全景图/产业图谱1.0版》

《2022中国数据智能产业图谱1.0版》

 创新服务企业榜

 创新服务产品榜

 最具投资价值榜

 创新技术突破榜

条漫:《看过大佬们发的朋友圈之后,我相信:明天会更好!》

联系数据猿

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存