张茜茜等:我国数据产业四项成绩及四大问题
数据产业是在数据要素化发展新阶段,由数据资源、数据技术、数据产品和服务、数据企业等集合而成一种新型产业形态。本篇主要介绍我国数据产业取得的四项成绩以及存在的四大问题。
(一)取得成绩
经过过去30多年信息化和数字化发展,特别是互联网、移动互联网、工业互联网、智慧城市、数字政务等应用的迅速发展和日益繁荣,海量的数据资源得到自动采集、存储和应用,数据技术和产品取得明显突破,数据企业不断涌现壮大,为“十五五”时期我国数据产业加快发展奠定了坚实基础。
1.数据产业规模快速壮大
2023年,全国软件和信息技术服务业规模以上企业超3.8万家,累计完成软件业务收入12.3万亿元,同比增长13.4%。全国规模以上电子信息制造业实现营业收入15.1万亿元,营业收入利润率为4.2%。全国通信业务收入累计完成1.68万亿元,比上年增长6.2%。据有关机构估算,2023年我国以数据技术、数据服务、数据应用为主的数据要素产业规模达2.1万亿元,年均增长20%以上。
2.数据资源规模迅速增长
随着互联网、移动互联网、工业互联网、智慧城市、数字政务、智慧城市等信息化和数字化应用的全面普及,对数据资源的采集、存储、加工和应用水平不断深化。截至2023年底,我国互联网普及率达77.5%,比2012年的42.1%提高近一倍,IPv6活跃用户数达到7.63亿,上网人数达10.92亿人,移动电话用户总数达17.27亿户,其中5G移动电话用户达8.05亿户,约占全球的五分之四。互联网和移动互联网已成为个人数据资源自动化采集、存储、加工、应用的最大工具;截至2022年底,全国一体化政务数据共享枢纽已接入各级政务部门5951个,发布各类数据资源1.5万类,累计支撑共享调用超5000亿次,208个省级和城市的地方政府上线政府数据开放平台,实名注册用户超过10亿人,国家政务服务平台总使用量超过850亿人次,已初步实现地方部门500万余项政策服务事项和1万多项高频应用的标准化服务,大批高频政务服务事项实现“一网通办”“跨省通办”,全国96.68%的办税缴费实现“非接触式”办理,电子发票服务平台用户数量突破千万级。电子证照共享服务体系已汇聚31个省份、新疆生产建设兵团和26个部门900余种电子证照、56.72 亿条目录,累计提供电子证照共享服务79亿次,有效支撑“减证便民”。数字政务和智慧城市的高效推进使公共数据规模日益庞大、质量日益提升、应用价值日益增大;截至2023年底,我国5G、千兆光纤网已融入71个国民经济行业应用中,应用案例已经超过了9.4万个,建设5G工厂300余家,“5G+工业互联网”建设项目超过8000个,工业企业关键工序数控化率、数字化研发设计工具普及率分别达到了62.2%和79.6%,具备行业、区域影响力的工业互联网平台超过340个,重点平台工业设备连接数超过9600万台套,制造机器人密度跃居全球第五位,智能制造装备产业规模达3万亿元,市场满足率超过50%。5G、千兆光纤网和工业互联网已成为企业数据生成、加工、利用的重要平台;我国农业生产信息化率超过25%,农作物耕种收综合机械化率从2018年的67%提高到73%,安装北斗终端农机已达220万台,植保无人机总量超过20万架,年作业面积突破21亿亩次;我国电子商务、移动支付、线上社交规模全球领先,网约车、网上外卖、数字文化、智慧旅游等市场规模不断扩大。网络视频用户数达到10.3亿人,网络支付用户达到9.1亿人,在线旅游预订的用户规模达到5.09亿人,全农国网络零售额达到2.49万亿元。2023年我国数据生产量超过32ZB,占全球数据总产量20%,位居世界第二。2022年底,我国存力总规模超 1000EB,数据存储量达724.5EB,同比增长 21.1%,占全球数据总存储量的 14.4%。数据要素在工业、农业、服务业等各行各业应用不断普及,我国已成为名副其实的全球数据生产和应用大国。
3.关键数据技术取得突破
党的十八大以来,我国将科技自立自强摆在核心位置,加强核心技术攻关,已取得重大突破。一是国家战略科技力量不断强化。建设运行首批国家实验室,北京、上海、粤港澳大湾区国际科技创新中心和怀柔、张江、大湾区、合肥综合国家科学中心引领带动效应持续显现,成渝、西安区域科技创新中心加快建设。二是核心技术创新取得突破。量子计算原型机、类脑计算芯片、碳基集成电路等基础前沿领域取得原创性突破;三是龙头企业的数据技术产品具有雄厚基础。在软硬件方面,国内骨干软硬件企业陆续推出自主研发的大数据基础平台产品,一批数据服务企业面向特定领域研发数据分析工具,提供创新型数据服务。在平台建设方面,互联网龙头企业服务器单集群规模达到上万台,具备建设和运维超大规模大数据平台的技术实力。在智能分析方面,部分企业积极布局深度学习等人工智能前沿技术,在语音识别、图像理解、文本挖掘等方面抢占技术制高点,目前我国数据参数超过10亿的人工智能大模型已超过100个。在开源技术方面,我国对国际大数据开源软件社区的贡献不断增大。截止2022年底,我国5G标准必要专利数量占全球比重超过38%,量子通信领域专利申请量占全球50%以上,数字经济核心产业发明专利有效量达160万件,年均增速超过18%。人工智能、区块链、物联网等新兴领域形成一批自主底层软硬件平台和开源社区,关键产品技术创新能力大幅提升,形成规模化应用效应。
4. 数据要素企业快速发展
近年来、随着数据关键要素作用的不断释放,互联网平台企业进一步聚焦于数据价值的挖掘和服务业态创新;传统企业数字化转型步伐明显加快,数字化含量不断提高;一大批中小企业为数字化转型提供技术、中介和应用等服务,形成技术型数商、服务型数商和应用型数商。一方面,互联网平台企业是我国发展速度最快、数据资源最集中、数据技术最先进、数据产品和服务最丰富的数据龙头企业,数据资源在互联网平台企业的深度应用,大幅度提升网络社交、电商、广告、搜索等服务的个性化和智能化水平,催生共享经济等数据驱动的新兴业态。2022年,我国市值超百亿美元的互联网平台企业有28家,包括字节、腾讯、阿里、百度、京东、美团、滴滴、希音(SHEIN)、TEMU等,全球占比达21.6%。目前,我国电子商务、移动支付、线上社交规模全球领先,网约车、网上外卖、数字文化、智慧旅游等市场规模不断扩大。网络视频用户数达到10.3亿人,网络支付用户达到9.1亿人,在线旅游预订的用户规模达到5.09亿人,全国网络零售额达到2.49万亿元;另一方面,传统产业数字化转型步伐加快,驱动生产方式和管理模式变革,推动制造业向网络化、数字化和智能化方向发展。电信、金融、交通、工业、医疗、政务、文化等行业利用已积累的丰富数据资源,积极探索客户细分、风险防控、信用评价等应用,加快服务优化、业务创新和产业升级步伐,不仅提升了各行业传统企业的数字化水平,推动其不断转型为数据企业;此外,在推动各行各业数字化转型进程中,催生了一批为其数字化转型提供各种服务的数据企业诞生,包括技术型数据、服务型数商和应用型数商等。
(二)存在问题
我国数据产业具备了良好基础,面临难得的发展机遇,但仍然存在数据资源开发利用程度不高、数据技术水平总体落后、数据企业发展迟缓、数据生态零散割裂严重等困难和问题,需要通过数据要素市场化改革加以破解。
1.数据资源开发利用不高
数据资源供不出、流不动、用不好,已成为我国数据要素市场化配置改革需要解决的最核心问题,也是制约数据产业发展的首要问题。
在数据资源供给方面,政府机构、平台企业和央国企掌握了全社会规模最大、价值最高的数据资源,但是,各数据主体普遍存在“不敢、不愿、不能”开发利用数据资源的问题。“不敢”源于《数据安全法》《个人信息保护法》《网络安全法》《关键信息基础设施保护条例》(“三法一条例”)的制度限制,数据超范围采集等不当采集方式,以及数据超范围使用、一揽子授权同意等不当利用方式,都会触发法律限制,各数据持有主体普遍具有“数据原罪”,几乎全部“戴着镣铐跳舞”,普遍不敢将其持有的数据对外开放使用,法律底线变成了数据开发利用红线;“不愿”源于数据资源的数据主体、加工主体、利用主体和收益主体割裂,特别是数据主体作为数据提供方,需要付出很大成本对数据资源进行目录化、标准化、可用化等,并要承担由于数据提供出去后可能出现的数据安全责任,但是当数据资源得到应用并获得收益时,却不能给予数据提供方相应的回报,造成数源单位没有动力开展数据资源共享开放工作;“不能”源于对数据资源的加工补偿,从无序杂乱无价值的数据变为标准化、目录化、有价值数据资源的过程,是一个技术含量较高的工作,不仅需要专业的技术技能,而且还需要充足的资金投入。目前,除互联网平台公司外,政府机构、央国企等数源主体不仅缺乏高水平的专业数据技术,也缺少数据治理的专门投入,造成数源单位即使有心,但也无力对数据资源进行共享和开放。
在数据资源流通方面,数据要素不同于传统生产要素的最大区别是“确权难、定价难、流通难”。“确权难”一方面表现在数据资源从其产生到利用的每一个环节都对数据价值做出了贡献,都对数据产权收益有一定的索取权,另一方面表现在由数据持有权派生出来的数据加工权、数据经营权和数据收益权,都不能侵犯数据主体的对数据先有权,即数据利用涉及到数据主体利益时,特别是涉及个人利益时,应征得个人数据主体的同意。由此造成数据大规模流通时,仍旧会产生由于数据权属不清而产生的法律纠纷;“定价难”是由于数据的场景依附性特点、易腐性特点和公共数据公益性特点造成的。数据资源对应用场景的依附性都非常强,同样数据由于不同主体和不同场景应用,产生的价值可能天壤之别;数据资源易腐性特征也非常明显,大多数数据一经使用就可能被无限复制,数据价值就大打折扣;公共数据都是由财政投资形成的,具有天然的公益特点,对公共数据收费使用可能形成对公众的两次收费,而如果免费使用又很难覆盖公共数据开发过程中的成本;“流通难”是由于数据流通交易市场不健全造成的,根子上仍然是数据安全红线导致的结果。当前,我国对数据安全和反不正当竞争相关法律,对个人信息安全和国家数据安全底线太低,管制太严,网络爬虫采集数据全部视为非法,而公共数据开放共享情况又不理想,造成“前端靠爬、后端靠谈、应用靠胆”的数据资源开发利用局面。由于大量数据的来源在现有法律制度下几乎都有不合法之嫌,数据持有人不敢将数据拿到通过合法渠道或放到数据交易所进行交易,也是数据黑市和数据灰市泛滥而无法禁绝的主要原因。
在数据资源利用方面。目前,我国除互联网市场的数据应用水平较高、发展速度较快外,其他行业和领域普遍存在应用领域不广泛、应用程度不深、认识不到位等问题,特别是与工业、农业和传统服务业等实体经济融合不够。数据应用水平不高除了由于法律制度限制而“不敢用”外,数据“不能用”和“不好用”也是数据利用方面存在的突出问题。“不能用”和“不好用”源于大多数据主体缺既乏数据分析加工的能力和技术,也没有大规模的应用场景;拥有丰富应用场景的各行各业既缺乏数据资源,也大多不具备数据分析加工能力;而拥有数据分析加工能力的技术服务商,往往缺乏数据资源,也没有丰富的应用场景。因此,数源单位和数据应用机构加大数据智能、人工智能、隐私计算等数据技术的投入,或通过将数据资源授权给具有技术和安全能力的机构进行运营,是加快数据资源利用的一个有效手段。
2.数据技术总体水平落后
数据技术创新与支撑能力不强也是我国数据产业发展面临的突出问题。主要表现在三方面:
一是数据空间、隐私计算等数据安全可信流通利用技术还未实现突破。数据安全可信流通利用是数据要素化发展新阶段,数据要素在经济社会中不断发挥关键要素作用,提出的新问题和新特征,需要对30多年互联网发展形成的信息流通规则、标准、技术、产品等进行系统性重构和颠覆性创新。当前业内提出的区块链、数据空间、隐私计算等技术路线仍处于探索阶段,还没有形成大规模的场景应用。
二是人工智能等核心数据技术与国外差距拉大。在算法方面,我国人工智能的训练算法和训练架构几乎都源自于美国谷歌、Meta等美国科技巨头,这些科技公司以开源和免费AI框架抢占了全球人工智能算法的创新源头;在算力方面,当前,支撑全球AI大模型的高算力芯片主要是英伟达研发的A100和H100 GPU智能芯片,这两款芯片已被美国政府限制出口我国。后来,英伟达为中国专门设计了符合美国出口标准的A800和H800芯片,其运行速度和性能只有A100和H100的70%,但近期仍然被美国政府列入禁运清单。目前,我国算力芯片生产厂商有华为海思、景嘉微、芯动科技、摩尔线程、沐曦科技、天数智芯等30多家,但国产GPU性能与英伟达的A100和H100相比还有很大差距,大多数都无法应用于人工智能大模型训练。在数据方面,尽管国内存量数据资源丰富,但由于数据挖掘不足、市场流通不畅等因素,导致中文高质量数据集极度稀缺,企业多采用自采、自建中文数据集方式,甚至采用外文标注数据集、开源数据集,或者爬取网络数据。目前,全球通用的50亿大模型数据训练集里,中文语料占比仅为1.3%,风靡全球的ChatGPT训练数据中的中文资料比重不足千分之一,而英文资料占比超过92.6%。造成我国大模型训练数据量先天不足,而结果显示出来的“聪明”程度就有了很大差异。例如,ChatGPT大模型的训练数据量达44TB,而我国相关企业大模型数据量仅为1TB。
三是对开源技术和相关生态系统影响力弱。在新型计算平台、分布式计算架构、大数据处理、分析和呈现方面等方面,我国基本上都是依赖OpenStack、Openshift、TensorFlow、PyTorch等云平台架构和算法框架,OpenStack和Openshift两个开源架构占据我国90%以上云平台份额,TensorFlow和PyTorch两个开源框架占据了我国85%以上算法框架份额。我国在云平台架构和算法框架等核心基础技术方面基础薄弱,对OpenStack、Openshift、TensorFlow、PyTorch等主流的开源云平台架构和算法框架贡献很小、影响力很弱,在缺乏核心技术的情况下使用这些算法资源,就很难搭建起自主可控的人工智能模型,也会随时面临“闭源”、“制裁”等“卡脖子”风险。
3.数据企业发展速度放缓
我国数据企业发展阻力较大,主要表现在以下三方面:
一是平台企业与美国企业差距拉大。平台企业是数据资源最集中、数据技术最先进、数据应用最丰富的数据企业,美中两国的平台企业在全球互联网市场上和数据流通市场上长期处于领先地位,但是,与美国相比,中国平台企业发展速度缓慢、发展质量不高。2023年全球市值前10的企业名单中,美国高科技企业入围7家,其中,苹果以3.03万亿美元高居榜首,微软以2.51万亿美元位居第二,谷歌母公司Alphabet为1.52万亿美元、亚马逊为1.34万亿美元、英伟达为1.05万亿美元、特斯拉为8868.9亿美元、Meta为7331.1亿美元,7家美国平台企业市值合计超过11万亿美元。反观排名前10的中国互联网平台,腾讯2.35万亿元,下降5100亿元;拼多多1.38万亿,上升8000亿;阿里1.33万亿,下降1600亿;美团4300亿,下降3000亿;小米3900亿,上升1500亿;网易3500亿,下降400亿;京东3100亿,下降700亿;百度2800亿,与去年持平;理想汽车2500亿,上升900亿;快手1950亿,上升50亿。其中,拼多多、小米、理想汽车、快手等4家市值上升,市值共上升10450亿元;百度1家市值持平;腾讯、阿里、美团、网易、京东等5家市场都在下降,市值共下降10800亿元。2023年前10名总市值达7.27亿元,不到美国前7家平台公司市值的十分之一,市值总体下降了350亿元。
二是企业数字化转型速度不快。总体来看,我国数字化应用仅在互联网、金融、政府等领域应用较多,而在工业、农业、传统服务业等行业和领域的应用场景还远远不够丰富,特别是数据要素化与实体经济融合发展方面还有很大差距,传统企业的数字化含量还很低,数据要素在传统企业发展过程中的价值潜能还远未发挥出来,传统企业向数据企业转型升级还有较长的路要走。
三是中小型数商成长环境不宽松。在数据要素化发展过程中,不仅需要大型数据平台企业快速发展、大中型央国企转型为以数据为关键生产要素的数据企业,更需要一大批为经济社会数字转型提供技术服务、中介服务和应用服务的中小型数商,构建起大中小数据企业繁荣发展的企业生态。但是,从具体实践来看,我国中小型数商在算力资源、数据资源、合规合法等方面的成本偏高。中小型技术型数商已越来越难得到高算力计算资源的支持,其人工智能技术产品与国外差距有不断扩大趋势;中小型应用型数商在获取公共数据等高价值数据资源方面难度较大,成本较高;中小型服务型数商提供的数据合规认证、评估、测评等服务,受到数据安全合规制度的严厉约束。中小型数商的生存生长环境有待改善和提高。
4.数据生态零散割裂严重
目前,由于数据资源大多分散在各地区、各行业、政府机构和平台企业中,以人工智能为代表的数据技术和产品严重依赖于国外开源架构体系、数据企业也没有形成内生性相互依存的企业生态,从数据资源生态、到数据技术和产品生态、直到数据企业生态都处于生态零散割裂状态。与美国以互联网平台企业为龙头形成的全球数据资源生态、数据技术与产品生态、大中小数据企业相互依存的企业生态间的差距有不断增大趋势。
相关阅读
1. 张茜茜等:我国数据产业的五大特点
2. 张茜茜等:国家及地方层面数据产业相关概念的演进历程
3. 张茜茜等:数据产业的构成环节及各环节技术、产品、企业梳理
4. 涂群等:我国公共数据授权运营的五大发展趋势
5. 涂群等:我国公共数据授权运营的三大模式及其特点
6. 涂群等:国家和地方层面公共数据授权运营的探索历程
7. 涂群等:我国公共数据授权运营及其相关的五个概念
8. 张茜茜等:我国公共数据开发的四大趋势
9. 张茜茜等:我国公共数据开发开放的七大特征
10. 张茜茜等:我国公共数据开发开放历经的四大发展阶段
11. 涂群等:国家数据基础设施(NDI)发展趋势
12. 涂群等:国家数据基础设施(NDI)取得成就
13. 涂群等:国家数据基础设施(NDI)的演进特点
14. 涂群等:国家数据基础设施(NDI)的演进历程
15. 涂群等:国家数据基础设施(NDI)的涵义与构成
16. 张茜茜等:我国数据要素制度体系的五大趋势
17. 张茜茜等:我国数据要素制度体系的九大特点
18. 张茜茜等:我国各地方数据要素制度体系的探索
原创内容,转载必须注明出处(“交大评论”公众号),侵权必究。