查看原文
其他

人工智能数据发展的国际比较:中国、欧盟和美国

The following article is from 创新研究 Author 创研报告

编者按

2019年8月,美国信息技术与创新基金会(ITIF)的数据创新中心发布了《谁会在人工智能角逐中获胜:中国、欧盟或美国》。该报告通过对人才、科研、开发、应用、数据和硬件六类指标进行比较,对中国、欧盟和美国人工智能发展现状进行了测算。本文主要对六类指标中的数据指标进行分析,衡量中国、欧盟和美国有关互联网活动、物联网、生产力(即大数据分析)、移动支付、电子病历、遗传学和高分辨率地图数据的数量和可用性。


1
 各国决策者已经意识到数据的重要性


人工智能系统通常依赖大量数据进行训练。大型数据集可帮助人工智能系统开发高度精确的模型,以执行从无地图导航到人脸识别再到回答Google搜索查询等各种任务。此外,机器学习技术使人工智能系统能够识别大型数据集难以被人类感知或无法感知的细微之处。人工智能系统执行某些任务要比人类专家更快更好,例如,在换相断层扫描中识别肺癌的征兆。


2015年,为支持大数据的使用,我国将开放数据列为十个国家项目之一。欧盟关于人工智能的协调计划指出:人工智能需要开发大量数据,数据集越大人工智能越能更好地学习和发现微妙的数据关系。美国总统特朗普的AI倡议指示政府“增强对高质量且完全可追溯的联邦数据的访问”,并指示美国管理和预算局识别并解决数据质量监控。


目前,没有直接的度量标准可以衡量特定位置的人工智能可用数据的相对数量和价值,但是当人们从事各种在线和离线活动时(如利用搜索引擎在社交媒体上进行发布和购物),会产生大量的数据。这些活动产生的数据对于机器学习模型可能具有非常高的价值。因此,一种估算国家或地区数据潜在价值的方法是考察参与数字活动的人口百分比。


2
 AI数据发展情况


1. 固定宽带订阅 


互联网用户每次浏览网页时都会生成数据,人工智能系统可以分析这些数据以提高广告推送的有效性。该指标跟踪的是宽带订阅的数量。如表1所示,截至2018年,我国固定宽带用户数量(3.94亿个)多于欧盟(1.76亿个)和美国(1.10亿个)。每100人中,欧盟固定宽带用户数量(35个)多于美国(34个)和中国(28个)。


表1 2018年中国、欧盟和美国固定宽带用户数


2. 移动支付 


技术公司可以在每次消费者使用移动设备购买产品时对所产生的数据进行分析。报告将“移动支付”定义为使用移动设备进行扫描并在销售点进行交易,不包括线上购买。由表2可知,2018年我国有超过5.25亿人使用了移动支付,欧盟有4400万人,而美国有5500万人。2018年,估计有45%的中国人使用了移动支付,而美国约有20%,英国约有13%,德国约有8%。


表2 2018年中国、欧盟和美国使用移动支付的人数

注:欧盟的数据仅适用于德国和英国


3. 物联网数据 


物联网设备可以生成大量数据,机构可以将其用于训练机器学习系统。例如,这些系统可以自动执行各种任务,从监视铁轨的运行状况到动态控制交通信号灯(缓解交通拥堵)再到跟踪污染。由表3可知,我国的物联网数据总量(1.52亿TB)多于美国(6900万TB)和欧盟(5300万TB),每100名工人中,美国的物联网数据量(42TB)多于欧盟(21TB)和中国(19TB)。


表3 2018年中国、欧盟和美国产生的新IoT数据量


4. 生产力数据 


该指标跟踪的是估计的生产力数据量,该数据是大数据和元数据的组合。由表4可知,美国的新生产力数据量(9.66亿TB)多于中国(6.84亿TB)和欧盟(5.83亿TB)。每100名工人中,美国的新生产力数据量(586TB)多于欧盟(234TB)和中国(87TB)。


表4 2018年中国、欧盟和美国产生的新生产力数据量


5. 电子病历 


研究人员已经利用电子病历开发了可以执行多种功能的AI系统,从预测患者是否会住院到辅助追踪疾病传播。目前还无法获得有关中国、欧盟所有成员国和美国有关采用电子病历的全面数据。但是,定量和定性信息的结合表明,美国所拥有的电子病历数量多于欧盟和中国。同时,美国在人均电子病历获取量上也最多,其次是欧盟和中国。


在所有筛查的地区,电子病历系统的采用率相对较高,但跨境的系统提供商之间访问电子病历的可用性并不高。例如,2015年的一项调查发现,84%的美国初级保健医生、99%的瑞典医生、98%的荷兰医生、98%的英国医生、84%的德国医生使用了电子病历系统。2017年,超过96%的美国医院使用了经过认证的电子病历系统。


我国和欧盟的电子病历系统的互操作性较低。我国不同医院经常会使用无法互操作的电子病历系统,迫使患者在不同医院就医时要携带打印的健康记录。欧盟跨境访问和共享医疗数据的能力差异很大,这限制了在跨境数据上训练AI系统的能力,导致许多欧洲公民无法使用电子病历。


6. 遗传数据 


遗传数据有助于改善人类健康的有用数据。AI可以通过分析DNA序列以发现与癌症和心脏病等疾病相关的遗传物质突变。该指标跟踪的是来自中国、欧盟和美国的个人遗传数据的可用性。美国在数量上绝对领先,其次是中国和欧盟。尽管很难将中国和欧盟进行比较,但据近年来中国基因检测行业的不断增长以及欧盟发布的禁令情况估计,我国的人均占有率领先于欧盟。


截至2017年,美国有超过1500万消费者购买了基因检测试剂盒,我国只有30万消费者。截至2019年,三家美国公司(Ancestry.com,23andMe和Gene by Gene)已售出约2500万套测试套件。23魔方是100多家中国基因检测公司中最大的一家,拥有200000多名用户。美国公司更容易获得遗传数据。相比之下,据德国和法国发布的直接面向消费者(约占欧盟人口总数的30%)的基因检测禁令表明,美国和中国领先于欧盟。


7. 高分辨率地图数据 


高分辨率地图数据对包括自动驾驶汽车在内的众多AI系统的开发都非常重要。该指示器主要跟踪1米或高分辨率3D高程数据(地形表面的3D计算机图形表示)的可用性。这一数据美国领先于该指标,紧随其后的是欧盟和中国。截至2019年4月,美国45%的州都有1米或更高分辨率的数据。相比之下,大概只有6个欧盟成员国(约占欧盟地理区域的15%)为公众提供完整的高分辨率3D高程数据,其余成员国为公众提供部分覆盖或低分辨率覆盖,或者不向公众公开数据。


8. 数据监管壁垒 


该报告评估了中国、欧盟和美国的相关法规如何影响数据的收集和使用。该报告认为,欧盟的监管环境对数据的收集和使用限制性最大,其次是美国和中国。通过评估得出以上排名有以下几点原因:


首先,GDPR通过使组织更难收集和共享数据造成了人为的数据短缺。该法律规范了组织如何使用或处理居住在欧盟的所有人的数据,并且禁止组织将数据用于其最初收集数据以外的任何活动。对于企业而言,了解哪些数据最有价值或将产生最重要的见解并不总是可行的。实际上,通过合并数据集很难预测其未来将创造的价值。通过对数据的收集和使用施加严格的限制,GDPR使企业使用消费者创建的数据更具挑战性。


其次,美国制定了多项联邦数据隐私法,包括特定行业和州的隐私法。例如,《健康保险流通和责任法案》(HIPAA)和《家庭教育权利和隐私法案》(FERPA)分别对医疗和教育记录的使用施加了多重限制。仅在加利福尼亚州,就有超过25项隐私和数据安全法,包括2018年通过的《加利福尼亚消费者隐私法》,该法律对组织收集和使用数据进行了严格限制,并于2020年1月1日生效。


最后,我国于2018年制定了个人信息保护国家标准。要求组织仅收集所需的数据量,仅将其用于原始目的,并在最短的时间内保留它们。此外,我国监管机构已经开始利用现有法律来加强执法活动,对1000个移动应用程序进行严格审查,吊销那些对用户数据处理不当的商业许可证。


尽管如此,与美国和欧洲同行相比,我国企业在收集和使用消费者数据方面所面临的限制较少。美国和欧盟的法律通常会对此加以限制。


3
 总结


1.我国未来可能拥有更大的数据优势 


我国在所收集的数据和大型互联网公司(可能也是最善于利用AI的公司)可获得的数据量方面均处于领先地位。我国的政策变化可以缓解多种数据缺陷,意味着将来在数据上可能会拥有更大的优势。


2.我国互联网公司未来将拥有更广泛的数据 


与西方国家的同行相比,中国大型互联网公司可能更具有数据优势。


首先,西方国家的服务在公司之间是相对分散的,例如,亚马逊用户可以购买杂货,但不能预订酒店;而我国科技企业已经创建了多合一超级应用程序,例如,腾讯拥有的应用程序微信,允许用户打车、订餐、预订酒店、管理电话费及购买国际机票等。美国以上服务及数据在Uber、Postmates、Expedia、Verizon和Venmo等企业之间划分。


其次,我国的科技公司已将自己融入到传统的离线活动中。例如,滴滴打车已经购买了加油站和汽车维修店。此外,美团点评的起源与Yelp相似,不仅为用户提供了一个比较方便的平台,还可以处理送餐服务。


最后,与美国同行相比,我国互联网公司有机会收集更多种类和深度的数据。但是,一些美国技术巨头的更广泛的全球影响力为其提供了自己的数据优势。例如,Facebook有超过20亿用户,而微信只有11亿用户。如果我国公司在国际上占有更多的优势,如使用社交媒体视频应用程序TikTok,那么美国的优势将会减弱。


3.我国应释放数据潜力 


美国公司在保险和金融等行业中一直在收集结构化数据,如贷款还款率。我国公司采用企业数据存储的速度较慢,因此从此类数据中获取见解和价值更加困难。在创建帮助组织跨平台共享数据方面我国有待加强。许多国家正在从全球跨境数据共享的增加中受益,我国的互联网生态系统处于封闭状态,限制了它从国外共享和接收的数据量。


来源 | 创新研究


 往期热文回顾:

● 新冠疫情后,中国科技创新面临两大挑战

● 人工智能抗疫尚需重视“软基建”

● 人民时评 | 以新型举国体制助力重大科技创新


本文由丨学会服务365 xhfw_365丨精编发布

欢迎留言、分享、点赞

转载、投稿、咨询

邮箱:xhfwzx_wx@163.com

小福团微信:xft20200115


———— 猜你喜欢————

(点击蓝字跳转)

学会百问研究视窗法律小讲堂抗炎黑板报


版权保护声明:

本公众号选发有优质传播价值的内容,可能会对内容做部分删节修改。我们极其尊重优质原创内容的版权,如本号所选内容未能联系到原文作者本人,请作者和小福团联系。


我知道你在看

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存