数据可视化的先驱——南丁格尔
编者按
2020年5月12日是国际护士节,恰逢南丁格尔诞辰200周年。在全球疫情背景下,本期刊登管会生老师的这篇文章,一是为了纪念这位医护界的英雄,同时也对这位数据可视化的先贤致以最崇高的敬意!文章介绍南丁格尔的生平事迹,重点介绍她于19世纪50年代在数据可视化领域所做的引领性工作和重大贡献,并通过几个经典案例,阐述数据可视化160多年来的发展经历以及它未来美好的发展前景。
0 引 言
因为疫情的缘故,今年的国际护士节显得十分特别,中国在此次的抗疫中也展示了中国广大医护人员救死扶伤的勇气与担当。截至2019年底,中国护士总数达到445万人;在4.26万名援鄂医疗队员中,护士就有2.86万人,占援鄂人员总数的70%。
弗洛伦萨·南丁格尔(FlorenceNightingale,1820.5.12—1910.8.13,享年90岁),1853年任伦敦慈善医院的护士长,是护理专业的创始人和现代护理教育的奠基人。南丁格尔创办的护士训练学校开办了30年,共培养了1 005名学生,她们活跃在欧美各国,弘扬着南丁格尔精神,国际上称这个时期为“南丁格尔时代”(periodofNightingale)。1901年,81岁的南丁格尔因操劳过度,双目失明,但仍继续宣传自己有关护理的思想和主张。1907年,国际红十字会设立南丁格尔奖(NightingaleWard)。1912年,国际护士会将南丁格尔的生日5月12日定为国际护士节,并首次颁发南丁格尔奖。截止2019年,南丁格尔奖已颁发47届(两年一届),世界各国共有超过1 400名卓越护理人员获奖。中国自1983年首次参加第29届南丁格尔奖评选以来,共参加了19届评选,82人奖获;福建医科大学护理学院院长李红(2017年当选为美国护理科学院院士)就是中国的第82位获奖者。
通过数据研究规律、发现规律,贯穿了人类社会发展的始终。人类科学发展史上的不少进步都和数据的采集分析直接相关,如现代医学流行病学的开端。
数据可视化是指将大型数据集或大型数据库中的数据以图形图像形式表示,并利用数据分析和开发工具发现(挖掘)其中未知信息的处理过程。最初,可视化技术被大量应用于统计学领域,用来绘制统计图表,如圆环图、柱状图、饼图、时间序列图、等高线图、散点图等。20世纪50年代,随着计算机的出现和计算机图形学的发展,人们开始利用计算机技术在电脑屏幕上绘制各种图形图表,可视化技术开启了全新的发展阶段。进入21世纪,数据可视化又被逐步应用于地理信息系统(GIS)、数据挖掘与数据分析、商务智能工具等平台中,有效促进了人类对不同类型数据的分析与理解。随着大数据时代的到来,每时每刻都有海量数据在不断生成,需要我们对数据进行及时、全面、快速、准确的分析,以呈现数据背后的价值,这就更需要可视化技术协助我们更好地理解和分析数据。数据可视化已成为大数据分析最后的一环和对用户而言最重要的一环。
1 数据可视化经典案例一(1854年)
数据可视化用于疫情监控,可追溯到1854年伦敦发生的大规模霍乱。这次霍乱长时间得不到控制。后来JohnSnow医师用标点地图的方法,研究了当地水井分布和霍乱患者分布之间的关系(如图1所示),发现在一口水井周围,霍乱患病率明显较高,借此找到了霍乱暴发的原因——被污染的水井。关闭这些水井后,霍乱发病率明显开始下降,霍乱终于得以控制。此例成为现代医学流行病学初创时期的首个案例,也是数据可视化这一研究方向的首个案例。
图1 反映当地水井分布和霍乱患者分布之间的关系图
(来源:历史的镜子:1854年约翰· 斯诺独战伦敦霍乱大疫作者:卫夕(科技专栏作者),搜狐_ 广东疾控,2020年2月12日17:24)
2 数据可视化经典案例二(1857年)
19世纪计算机尚未出现,因此没有现在的数据可视化软件。1857年,为说服维多利亚女王改善英国军队医院的医疗条件,南丁格尔特地设计了一张极坐标下的圆形直方图,也称圆饼图、玫瑰图、“鸡冠花图”(Coxcombdiagram),用这张图直观传达了1854年4月—1856年3月两年间,每个月在克里米亚战争中死亡的士兵数量以及死亡原因,非常直观简洁地说明了在她管理的野战医院内,死亡率在不同季节的变化以及3类死亡原因的占比,直观明了、一目了然,如图2[1]所示,以此揭示克里米亚战地医院真实的医疗环境与卫生条件[2]。
这种极坐标下的圆形直方图,是1801年威廉普莱费尔发明的,在200多年前这是一种非常新颖的数据展示形式,但由于绘制较难而没有流行起来,直到1857年南丁格尔绘制出这张“鸡冠花图”之后,才逐渐被人们熟知和接受。这张图替代了原英国军方准备用几万文字描述的统计分析报告,结论就是:由于医疗卫生条件太差,战地医院死于可预防传染病的人数远远高于战争期间战场上的直接伤亡人数。这是“鸡冠花图”在数据可视化领域最经典、最实际的应用案例,也是护理学科与数字学科相结合在发展初期的首个案例[2]。
1854年—1856年,英国、法国、土耳其等国与沙皇俄国爆发了克里米亚战争。当时由于没有护士护理伤病员,且战地救护条件十分恶劣,英军负伤士兵的死亡率竟高达42%。1854年10月21日,南丁格尔主动申请参加战地救护工作,率领38名优秀护士奔赴克里米亚战地医院,并成为该院的护士长,由此开创了现代战地护理事业。参战士兵伤病员由于得到了及时认真的医疗护理,在短短的半年时间内,伤病员的死亡率降至2.2%。南丁格尔在分析了大量伤亡资料档案后,得出的惊人结论就是:“士兵死亡原因大多是因为感染疾病以及重伤员得不到及时救护所致”[3]。这就是南丁格尔设计“鸡冠花图”的背景。
仅仅使用了一张图,就充分展示并说明了所收集到的所有数据资料!一张图的可视性、直观性远远胜过了长篇大论的文字报告。后来世人称南丁格尔为“数据可视化的先驱”,她被誉为“在统计的图形显示方法上,是一个真正的先驱”。1859年,南丁格尔被选为英国皇家统计学会的第一个女成员,后来她还成为美国统计协会的名誉会员[3]。
3 数据可视化经典案例三(2020年)
2020年疫情突发以来,央视新闻每天报道“多个省市区确诊病例连续多日零新增”时(如图3所示),以及《人民日报》新媒体报道“新冠肺炎全球疫情形势”时(如图4所示),数据统计结果的展示均采用的是我们久违了的“鸡冠花图”。
图3 央视新闻每天报道“多个省市区确诊病例连续多日零新增”数据
图4 《 人民日报》新媒体报道“新冠肺炎全球疫情形势”数据
4 数据可视化经典案例四(Excel软件)
目前已有各类图表软件可以完成数据可视化的工作,效果很好。以2009—2019年淘宝天猫双十一11年交易额对比表[1]为例,借助我们最熟悉的Excel数字图表功能,对同一组数据可绘制出瀑布图、柱形图和旭日图3种不同类型的数据图表,如图5所示。从图中可看到,虽然图表类型不同,但是它们所揭示的“交易额发展趋势”却是相同的,直观清晰、一目了然。图表的绘制工作也非常简单,从数据到图表的展示,只需一键便可完成。有兴趣的读者可以试试Excel“插入”图表的“推荐图表”功能。
图5 2009—2019年淘宝天猫双十一交易额对比表及Excel下的3种数字图表
再以4月27日至5月10日两周14天来全球214个国家与地区以及美国、中国疫情统计数据为例(见表1),采用Excel中类型为“堆积面积图”的数字图表进行数据可视化,数据分析的结果如图6所示。
表1 14天全球214个国家与地区以及美国、中国疫情数据统计对照表从表1可知,4月27日至5月10日两周14天内,全球累计确诊由300.28万升至405.14万,新增105万例;累计死亡新增73,575例。美国累计确诊由96.59万升至130.97万,新增34.38万例;累计死亡新增23,923例。这14天内,中国累计确诊由84,341例升至84,435例,新增94例;累计死亡新增“0”例。其实,3月10日,武汉16家方舱医院就全部休舱了;3月13日,湖北新增疑似病例为“0”例;4月26日,武汉在院新冠肺炎患者清“0”。第一次感觉“关门大吉”这个词是如此真切,第一次知道数字“0”是如此美好,历此坎坷,记忆永存!
从图6中可以看出,全球214个国家和地区的“新冠肺炎疫情形势”与美国的疫情发展趋于一致。数据可以证明,美国作为超级大国,由于防控不当,这次确实“引领”了世界疫情蔓延的趋势!
5 数据可视化经典案例五(霍普金斯大学全球疫情数据可视化平台)
关注国际疫情的读者一定对“据美国霍普金斯大学最新统计数据显示......”这句话不陌生,因为这个风靡全球的疫情数据可视化平台——霍普金斯大学新冠病毒病例数据,日访问量平均为10亿次,最高曾达20亿次,在时效性、直观性等方面超越了美国疾控中心(CDC),已成为全球权威信源。
霍普金斯大学的全球疫情数据可视化平台如图7所示,除了各类统计数据的实时播报之外,还有依据214个国家/地区的行政区划图,按确诊病例人数标注地图(Map)并二维平面显示的功能。该平台的成功,一方面在于其数据更新及时,另一方面也因为其优秀的数据展示形式——交互式“仪表盘”(dashboard)。事实证明,这一数据可视化方式非常适合疫情监控。不仅如此,目前该研究团队更重要的目标是通过建立完善的数据,进而“模拟疫情动态、科学指导防疫”,让我们看到了大数据应用于疫情防控的真正曙光!
图7 霍普金斯大学全球疫情数据可视化平台
(来源:美国约翰斯· 霍普金斯大学公告牌,大区分类采用世卫组织规则。其中,图7上半部分是4月21日的公告牌内容,图7下半部分是5月4日的公告牌内容)
图8所示为新冠病毒感染人数超过30,000例的国家排名,数据来源仍为美国约翰斯霍普金斯大学。
图8 新冠病毒感染人数超过30,000例国家排名
(来源:新浪博客_ 夏日太阳,5月12日约翰斯霍普金斯大学最新疫情报告,截至时间:北京时间2020 年5月12日06:32,http://blog.sina.com.cn/s/blog_7e709d2b0102z993.html)
全球最具影响力的霍普金斯大学全球疫情数据可视化平台——实时追踪COVID-19的交互式网络仪表盘,实质上是第三方数据整合的项目,最初由霍普金斯大学系统科学与工程中心两名中国博士生董恩盛和杜鸿儒主导。从1月22日“仪表盘”项目上线开始,平台经过不断升级,两个多月后成为今天的权威信源。“仪表盘”也可视为GIS系统的典型应用,其研发采用了ESRI公司的ArcGIS系列开发工具。ESRI公司是业内知名的地理信息系统(GeographicalInformationSystem,GIS)提供商。中国疾控中心就曾联合ESRI推出“新型冠状病毒感染的肺炎疫情分布系统”,其功能与霍普金斯大学的“仪表盘”近似。众所周知,GIS可将地图独特的视觉效果和数据库操作、地理分析功能集成在一起,已经在城市规划设计、地理水文、交通测绘、移动通讯、公共卫生等很多行业得到了成功应用,特别是结合病例统计数、时间和地理信息形成的疫情地图,是GIS系统非常生动的应用。
6 结 语
静态的Excel图表已使用近30年了,社会现实中我们诠释数据的方式和数据本身之间存在着巨大的鸿沟。想像阅读书本一样阅读数据流,目前还只是IT人追求的梦想,但使用数据可视化工具读取识别和分析处理原始数据,一定会成为未来信息技术和互联网技术的发展趋势和工具模式。数据可视化领域未来将会融入更多更大的信息平台,甚至完全建立在AI+VR+AR+Web3D(人工智能、虚拟现实、增强现实、3D网页和全息技术)之上!
目前国内外流行的大数据可视化工具和系统平台很多,大多都是既开源又专有的,并具有这些特征:能够连接到其他软件接收输入数据,能够处理不同类型的传入数据,能够在分析过程中与数据集进行交互、应用不同种类的过滤器调整结果,能够为其他软件提供输入数据,如大数据可视化的一站式商店Jupyter、大数据和机器学习应用可视化平台TableauAI等。受篇幅所限,这里仅列举普遍受到用户认可和欢迎的可视化工具软件和系统平台如下:
以上18种可视化工具是大量在线或独立的系统平台和实用工具的一部分。使用这些工具可以帮助我们以更加优雅的方式呈现数据,将数据转化为一系列清晰易懂的图像图表,甚至转化为一段动漫演绎。原始数据本身可能看不出具有什么价值,但借助可视化所做的决策,帮助这些数据实现了其本身蕴含的驱动价值!这,就是数据可视化的应有之义。
参考文献:
[1] 管会生.“数”字新解读[J]. 计算机教育, 2020(5): 1-6
[2] 新华网. 新闻背景: 南丁格尔和国际护士节. (2014-05-12)[2020-05-14]. http://www.xinhuanet.com//world/2014-05/12/c_1110651003.htm.
[3] 百度百科. 弗洛伦斯· 南丁格尔(护理事业的创始人和现代护理教育奠基人). https://baike.baidu.com/item/弗洛伦斯·南丁格尔/1093?fromtitle=%E5%8D%97%E4%B8%81%E6%A0%BC%E5%B0%94&romid=419906&fr=aladdin.
作者简介:管会生,男,兰州大学教授,研究方向为传统文化与文化遗产的科学保护与创新传承,guanhs@Izu.edu.cn。
引文格式:管会生. 数据可视化的先驱——南丁格尔[J].计算机教育,2020(6):优先出版.
(微信编辑:史志伟)
更多精彩:
【校长专访】加快推进计算机科学教育 做数据科学教育的探路人——华东师范大学副校长周傲英教授专访