【数智化案例展】佛山烟草专卖局———基于隐私计算的烟草消费大数据分析平台
芳禾数据案例
本项目案例由芳禾数据投递并参与数据猿与上海大数据联盟联合推出的《2023中国数智化转型升级创新服务企业》榜单/奖项”评选。大数据产业创新服务媒体
——聚焦数据 · 改变商业
随着大数据、人工智能、云计算等信息技术的快速发展,数据已逐渐成为我国数字经济发展的核心。2020年04月,中共中央、国务院印发《关于构建更加完善的要素市场化配置体制机制的意见》,首次将数据作为一种新型生产要素写入了该《意见》。2021年12月,国务院印发了《“十四五”数字经济发展规划》,明确数据要素是数字经济深化发展的核心引擎。
随着烟草数字化转型的全面推进,烟草内部已经积累了大量有价值的数据,包括烟农信息、消费者信息、零售户基本信息和经营信息等等。然而,随着《密码法》、《个人信息保护法》、《数据安全法》和《网络安全法》等网络安全法律的出台,如何将有价值的数据在保护隐私性的前提下进行安全分析与融合利用,服务于烟草数字化转型发展需要,达到降本增效的目的就成为当前烟草行业迫切需要解决的问题。本项目根据烟草数据的特点,围绕《多方安全计算金融应用技术规范》(JR/T 0196—2020)、《多方安全计算金融应用评估规范》(T/PCAC 0009-2021)等标准规范要求,本项目研发了支撑烟草数据安全流通体系、技术和平台,在保障烟草数据隐私安全的前提下,实现烟草数据和外部数据互通,深度挖掘烟草数据价值。时间周期:项目开始时间:2023年5月
中间重要时间节点:2023年7月
项目完结时间:2023年10月
数智化需求
门店选址对于烟草零售店,在经营上起到至关重要的作用,形成一套标准化的、科学的、多维度的门店选址综合分析体系是烟草销售网络建设中的重要部分。门店选址需要从多个维度对门店进行评估,如城市评估、商圈评估、人口评估、交通评估等,从而选出合适的店址。
烟草企业主要以如何提高门店赢利能力为目的,因此如何为门店提供足够的数据支撑来辅助其商业运营就成为第一要务。具体地,对于典型的商业零售公司——烟草公司而言,门店的位置是决定门店是否盈利、盈利多少的关键因素。烟草门店的选址不同于其他公司,它可能受很多因素的影响,如门店周边的烟民数量、附近商圈情况、人流量大小、地区的人均消费水平、门店结构和成本投入、经营情况等综合数据。
经过长期的积累,各省市级烟草局掌握了大量有价值的数据信息,包括烟草门店数据、销售数据、客户敏感信息等等,如何将这些有价值的数据在保护隐私性的前提下,进行安全地分析利用,服务于烟草行业,以达到降本增效的目的就成为行业迫切需要解决的核心问题。在已有的方案中,数据的流通利用主要局限于烟草企业内部,各省市级机构之间的交互,受限于数据的安全保护需求,很少在数据的使用上与不同行业之间的机构进行跨域数据利用。由于数据种类少、数据规模有限,无法为烟草行业带来精准的应用服务。因此,烟草企业需要一套安全跨域共享框架,融合多源数据来为烟草提供高质量的数据服务。
面临挑战
由于佛山烟草专卖局数据源单一,主要为内部数据包括产品与市场数据、供应链数据、职能管理数据等,无法满足门店选址场景下的数据需求,急需整合外部数据融合分析。然而,周围环境的人口、商圈、住宅情况等是烟草行业内部所缺少的数据,拥有这些数据的提供方又由于隐私安全性的考虑而不愿意共享数据。如果能够将这些数据与门店经营数据、已有门店位置数据等进行融合应用,势必对门店选址的准确性提升产生积极的作用。另外一方面,作为烟草内部重要的经营数据,如何在保护其安全性的前提下实现与外部数据的融合计算,对促进烟草行业的发展有着极其深远的意义。芳禾数据作为消费数据专业服务商,致力于提供高质量的多源融合数据,可为佛山烟草专卖局提供所需数据并接入其他第三方数据。但佛山烟草数据和外部数据融合该采取什么样的方式是个重大的问题。具体而言,主要包括以下需要解决的问题:
从烟草专卖局获取订单、营销等数据, 以及从数据供应商获取店铺地理相关信息数据(人口统计、客流分析、消费统计等)。
应用技术与实施过程1、技术方案
烟草消费大数据分析平台采用多方安全计算、同态加密、区块链等数据技术,具体如下:
(1)多方安全计算用于解决一组互不信任的参与方各自持有秘密数据,协同计算一个既定函数的问题。安全多方计算在保证参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息。在整个计算过程中,参与方对其所拥有的数据始终拥有绝对的控制权。
(2)基于同态加密算法的数据安全计算:
① 基于多密钥模型下的同态加密的密文数据计算,在去可信第三方情况下,基于每个数据源拥有自己公私钥来进行全同态加密计算。
全同态加密是指可以对密文进行任意类型计算和任意多次计算。一般而言,由于任意计算均可通过加法和乘法构造,若加密算法同时满足加法同态性和乘法同态性,则可称其满足全同态性。满足同态性的加密函数能够实现在不解密原始数据的前提下对加密数据进行某一运算,提供了对加密数据的计算能力。全同态加密算法则是指给定任意一种运算规则,可以通过算法构造出对加密数据的相应运算规则,并满足同态性。
② 基于可验证函数和同态验证码的密文计算结果可验证,确保在计算过程中按照约定的方式对数据进行了正确计算并对计算结果正确与否进行验证。
(3)支持细粒度属性访问控制与可条件代理的大数据共享技术:
① 条件代理重加密,通过在数据加密时额外输入一个条件值来对密文进行分类,在授权者生成重加密密钥时也输入条件值,这样一个重加密密钥只能转换与其条件值一致的密文,从而实现了解密权限的选择性的指派,进而实现了加密数据的细粒度共享。
② 基于多功能数字签名的数据访问控制技术,用户管理员可以通过使用户的签名无效或者从存储的用户列表中删除撤销用户的身份即可完成对烟草数据的访问控制,解决用户身份可认证与隐私保护问题,实现数据流通安全中灵活高效的访问控制目标。
图1-1烟草数据融合安全应用示意图
数据仓库层:支持Webservice API、Restful API、RPC API和API访问控制&计费功能,以及通用文件类型。访问方式包括直接访问、服务封装访问、前置接口库访问。支持数据运维管理,功能包括节点管理、资源监控、系统查看、日志审计、HA主备。
数据治理分析层:为用户提供关键指标分析、数据可视化治理、系统管理等服务,此外包括北向接口、区块链浏览器、用户管理、自动部署。
安全管理层:支撑多方安全计算、机器学习组件库、算法组件库、区块链基础平台,支撑隐私计算和数据安全融合分析能力。
应用层:提供业务功能管理,为用户在各个端口提供应用服务,包括门店选址评估、优质潜力门店分析等业务应用。
2、实施过程
2.1隐私计算理论研究
(1)基于同态加密算法的数据安全计算
图2-1理论研究路线图
主要研究基于多密钥模型下的同态加密的密文数据计算、基于可验证函数和同态验证码的密文计算结果可验证两个方面内容。全同态加密计算在应用过程中很难找到一个可信第三方是大多数数据提供方所信任的。因此,如何保证在去可信第三方情况下,基于每个数据源拥有自己公私钥来进行全同态加密计算是研究内容关键问题。其次,在烟草中大数据量情况下,全同态加密和计算效率会受到限制,如何解决密文计算的并发性问题是关键。最后,在密文计算过程中,如何保证在计算过程中按照约定的方式对数据进行了正确计算,如何确定计算节点在密文计算之后的结果是否正确方案。因此,需要研究可验证的全同态加密技术,可以在保证数据的隐私下对计算结果进行验证,使得密文计算结果是根据规定计算方式得到的。
(2)支持细粒度属性访问控制与可条件代理的大数据共享技术
在实际的应用中,数据拥有者可能仅仅想共享一部分数据,而不是全部。为了支持在数据共享过程中对数据的细粒度访问控制,需要研究条件代理重加密技术,通过在数据加密时额外输入一个条件值来对密文进行分类,在授权者生成重加密密钥时也输入条件值,这样一个重加密密钥只能转换与其条件值一致的密文,从而实现了解密权限的选择性地指派,进而实现了加密数据的细粒度共享。安全高效的多功能数字签名方案,支持用户在对烟草数据的访问控制过程中解决用户身份可认证与隐私保护问题,实现数据安全融合分析中灵活高效的访问控制目标。
(3)面向烟草大数据共享应用的全流程溯源与取证技术
主要研究基于高效零知识协议的智能合约计算结果验证机制和基于区块链的多方身份可信认证机制两个方面的内容。基于区块链的数据存证溯源中,主要通过在智能合约中构建完整生命周期的取证过程,保证每一个步骤的有效执行。首先,用户通过智能合约将数据存储到区块链上,参与方通过被分发的权限从智能合约中获取数据进行存证溯源计算,并将计算结果上传到智能合约中。最后,通过智能合约的自动化机制对存证溯源计算结果进行有效性验证。在这个过程中,用户存储的数据可能是带有隐私特性的私有数据,因此需要考虑以密文的状态进行数据存证。同时,其他参与方的计算结果也需要以密文的状态上传,如何在密文状态下完成数据计算,并且使得计算结果在隐私保护的状态下可验证就需要引入基于高效零知识协议的智能合约计算结果验证机制。
(4)基于区块链的数据存证
系涉及到不同类型的用户以及机构,在进行存证溯源时,需要及时验证参与方的身份信息从而保证上传的数据的可信程度。由于各个参与方都会进行数据操作,难以找到一个可信方进行身份认证。采用中心化的身份认证机制可能带来单点故障或者存在内部攻击者使得身份认证机制被破坏,从而导致平台的可信程度下降。因此引入分布式的自主身份构建机制是一个重要的研究内容。
2.2烟草消费大数据分析平台设计开发
根据调研结果、隐私计算理论研究结果和数据安全要求设计烟草消费大数据分析平台。平台基于条件代理重加密、可验证属性加密、同态加密、区块链等技术,实现数据安全存储、多功能数据加密、安全隐私计算、数据确权与细粒度访问、存证溯源等服务功能,有效保障“数据可用不可见,数据可控可计量”,助力烟草解决数据在跨域融合和分析过程中的安全和隐私保护问题。
具体功能包括:城市总览、分析任务、系统管理、消息中心。
门店信息关键指标数据分析
图2-2 平台功能模块
图2-3 主界面
图2-4 门店分析
图2-5 门店描述
图2-6 人群画像
图2-7 商业业态
图2-8 商业环境
图2-9 用户管理
图2-10 用户角色
图2-11 机构管理
应用分析
如上图的佛山市网格烟草店铺亲和度地图,愈接近红色,代表小区域网格内的店铺越适合开展店铺,反之黄色和一般情况,蓝色为不合适。随机选点后,判断该点位所在的网格分数,输出点位的关于烟草店铺开展的综合评分。
行业变化成果效益
通过本项目的实施,有效保障了佛山市烟草专卖局数据隐私安全,实现了烟草数据和外部数据跨域融合分析利用。解决了烟草门店选址综合分析过程中依赖外部多源数据时存在的隐私泄露问题,保障烟草数据的“可用不可见、可控可计量”,实现多源数据跨域融合,并为其他类型的烟草应用场景提供理论与技术支撑。与此同时,在保障烟草数据安全、合法、合规的前提下通过数据融合分析深度挖掘烟草数据的潜在价值,赋予烟草行业基于数据生产要素的精准决策,顺应了烟草数字化转型的需要,推动实现烟草行业高质量发展。其带来的社会和经济效益主要包括:
(1)在烟草行业起到引领示范作用:在广东省率先落地本项目,打通省烟草、地市公司数据和外部数据之间的壁垒,将为后续烟草营销、专卖、物流和企业管理等方面需要数据融合分析的应用场景实现奠定基础,也将在烟草行业起到引领示范作用。
(2)提升数据治理合规和智慧化水平:辅助烟草局探索烟草数据安全融合分析、监管和治理新模式,全面提升烟草行业治理的规范化法治化水平。
(3)具备巨大的经济潜力:打通烟草数据和外部数据之间的壁垒,赋能烟草行业经营决策,提出了可推广的模式,带来巨大的经济效益。主要包括:
① 高质量多源数据汇聚——打通某市烟草数据和外部数据之间的壁垒,目前已融合外部数据源10余家(电信、移动、银联、地理信息等),将为后续烟草营销、专卖、物流和企业管理等方面需要数据融合分析的应用场景实现奠定基础;
② 现有门店评价——已针对佛山市现有37734家烟草门店进行综合分析,包括门店综合评估、人群画像、商业业态、商业环境等,帮助广东烟草佛山市有限责任公司精准掌握区域各门店综合信息,精确度提高70%,为后续智能投放和门店精准评级奠定基础;
③ 新开门店评估——已在某市全域新增1000个地点进行新开门店评估,新增收入300万元,主要评估新开门店预估营业额、周边竞争对手、人群和商业环境等,辅助某市烟草公司和个体工商户做出多项具体决策;
④ 本案例的实践,使门店综合评价及日常维护工作实现了数字化转型,极大地提升了营销部门工作效率,门店评价工作由原来10日人/次缩减至1人日/次,免去大量的时间及人力成本;通过大数据融合分析技术输出科学合理的参考指标,提高了决策精度。
成果亮点
1、创新性的技术路线
采用多方安全计算模式,实现“数据可用不可见”;采用联邦学习,实现数据不出域;采用区块链溯源,实现了数据的确权和可追溯;把条件代理重加密应用到数据授权管理,实现了跨域数据的细粒度访问控制,提升了数据的安全性和用户管理的便捷度;实现了烟草密文数据高效分析和检索;平台实现了可自定义的任务配置管理,以项目方式进行运作执行;用户可以选择所要选择的数据源、需要隐私计算的配置模型,管理项目/任务的执行状态并获取最终计算结果,可满足用户的个性化需求。
2、多场景可用性
平台设计以现有的需求为基础,充分考虑安全合规和数据融合分析效率, 以此来确定平台的实现方式,在满足产品和技术的先进性基础上,又实现了强大的可扩展性,微服务架构和应用功能组件化设计不仅满足了当前各种业务场景需求,又为未来新增业务场景奠定基础。在信息技术应用方面,较好地兼顾经济实用性和先进性原则。在功能设计方面,做到界面设计友好,操作简单,经简单培训即可掌握操作。
3、强大的弹性和负载能力
平台具有良好的弹性,每个服务内置可用性解决方案与功能降级方案以应对部分服务出现问题。平台采用了良好的负载均衡解决方案,通过算法调整负载,尽力均匀地分配应用集群中各节点的工作量,以此提高应用集群的并发处理能力。
4、可拓展性和稳定性
平台遵循严格的软件开发标准实施,采用模块化设计,具高内聚低耦合的特性,对于维护人员理解、测试、诊断、改动和改进本平台有积极意义。
成果合规性
本项目的实施严格遵守《密码法》、《个人信息保护法》、《数据安全法》要求,围绕《多方安全计算金融应用技术规范》(JR/T 0196—2020)、《多方安全计算金融应用评估规范》(T/PCAC 0009-2021)等标准规范要求进行探索,研发了支撑烟草数据安全融合体系、技术和烟草消费大数据分析平台,在保障数据隐私安全的前提下,实现与外部数据互通,释放烟草数据价值。
关于企业·芳禾数据
广州芳禾数据有限公司成立于2014年,国家高新技术企业,广东省专精特新企业,是国内基于隐私计算的数据融合应用服务先行者。基于自主知识产权的FUXI系列信创产品,提供数据安全(隐私计算)、多源数据接入、数据治理、数据融合建模、数据产品合规、数据资产化的六大数据能力,以实现稳定供应安全、互信和高质量的数据,支撑最优决策,务实笃行高质量发展。点击文末“阅读原文”链接,还可了解更多“芳禾数据”信息。
·广东烟草佛山市有限责任公司
广东烟草佛山市有限责任公司负责地区专卖管理、卷烟经营、烟叶生产经营和烟叶复烤加工等工作,承担国有资产保值增值责任。★以上由芳禾数据投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的《2023中国数智化转型升级创新服务企业》榜单/奖项。
该榜单奖项最终将于11月14日以下活动中进行榜单的首发与奖项的颁发,欢迎报名莅临现场: