连载(2):统计图形艺术——线图
中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。
生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。
历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。
线 图Line Plot
线图,由苏格兰著名工程师、政治经济学家William Playfair于1786年出版的《The Commercial and Political Atlas》专著中首次提及,来展示英格兰1700年至1780年间的进出口贸易数据 [1](图2-1)。
图2-1:1700~1800年英格兰进出口贸易情况
在图中可清晰观察到英格兰贸易顺差和逆差年份。早先年份的对外贸易对英格兰不利,而约在1752年后,对外贸易逐渐变得对苏格兰有利。
展示一维趋势(如:重症患者连续4天的血小板水平)或二维关系(如:某基因甲基化水平和生物年龄的关系)。 展示时间序列数据,可选用折线图、面积图、雷达图、日历图、柱形图,等。 面积图和堆叠面积图为线图的扩展,可用于展示某一时点的内部构成,和随时间推移的内部构成变化。 若欲体现随时间推移的累计数量关系,则台阶图比折线图更为形象。 当时间趋势数据点密度较高,或分组较多时,适合采用量化波形图进行展示。
01 常规线图Regular Line Plot
线图叠加点图是医学论文中常用的可视化方法之一,即通过连接相邻的点来展示数据变化的趋势。
折线图是用直线将相邻两点依次相连,以形成折线之势。
本例引用一篇利用人工智能挖掘全肺信息预测肺癌EGFR基因型和靶向治疗反应的多队列研究[2],于主数据集A(primary A)中有关于三个模型识别肺癌患者EGFR突变的效果评价结果见下图(图2-2)。 可见,研究者提出的全肺CT影像学人工智能模型(FAIS和FAIS-base)较之目标区域标注的深度学习模型(tumor-based DL model),具有显著的优势;训练集样本量占比不同情况下,其优势保持不变。
图2-2:三种模型用于非小细胞肺癌EGFR突变情况识别的效果比较
本例对某小学10名学生6个项目的智力测量量表得分进行主成分分析(principle component analysis, PCA),用折线图来展示各主成分的信息提取能力(图2-3)。
注:主成分分析是多元分析中最重要的方法之一。多元分析中的随机变量,是对同一个体进行测量的结果,从不同侧面反映了个体的特征,各变量所包含的信息通常交叉或重叠的。主成分分析就是将这些变量综合(即主成分),给出少数几个综合指标,尽可能多地反映原变量的信息。在主成分分析中,折线图又被称为碎石图。
X轴依次为第一到末主成分,Y轴表示各主成分的方差占总方差的比例。各主成分的方差越大,则信息量就越大。 从图中可看出第1主成分的方差较大,占总方差的2/3以上,前 3 个主成分所汇集的“信息量”达93.52%。因此,可取前 3 个主成分来代替原有变量。
图2-3:学生智力分析量表主成分分析碎石图
02 线图叠加误差线Line Plot with Errorbar
线图叠加误差线,给折线图上的点(通常代表平均水平)添加上下误差线,以反映其变异度,在医学研究论文中常见。
本例引用自NEJM上一项吸入曲前列环素治疗肺动脉高压的RCT研究[3],其研究的主要观察指标为6分钟步行距离(6-minute walk distance, 6MWD),研究终点为6MWD较之基线改变量(change in 6MWD from baseline),主要终点为6MWD在16周时较之基线的改变量。 下图清晰展示了16周的试验期内,6分钟步行距离峰值较基线的平均变化水平,误差线的高度为标准误;三条误差线分别来自原始观察值、重复测量的混合效应模型(mixed-effects model for repeated measures, MMRM)、马尔科夫链蒙特卡罗法(Markov Chain Monte Carlo, MCMC)填补缺失值后的分析估计结果(图2-4)。
图2-4:16周内6分钟步行距离较基线的平均变化情况
03 时间序列图Time Series Plot
时间序列图,强调数据随时间变化趋势。X轴一般为时序,Y轴为数值变量,各点相连而体现趋势。若数值存在季节性波动,则将呈现出一系列的谷和峰。用折线来显示时间序列变化趋势,最为常见。
本例以1990-2009年江苏省细菌性痢疾月发病数构建时间序列(图2-5)。 通过绘制原始数据的折线图(图A),序列特征分析显示周期趋势,且周期幅度逐渐减小,最小值接近于0; 对数变换后(图B),周期趋势接近相同,呈下降趋势; 对数序列1阶差分后周期幅度接近相同(图C),但下降趋势消失 ; 在对数序列1阶差分+12阶季节差分后(图D),周期趋势消失,下降趋势消失 。 通过对数变化、普通差分和季节性差分,消除了数据的趋势性,可进行后续分析。
图2-5:1990-2009年江苏省细菌性痢疾发病数时间序列图
04 平滑折线图
Smooth Line
平滑折线图,是对折线进行平滑处理,通过函数拟合其趋势(模式),以避免某些离群值(或异常值)对趋势的影响。
本例仍使用上述江苏省细菌性痢疾发病数,使用时间序列谐波分析(harmonic analysis of time series)判断疾病发生是否具有季节性模式(图2-6 A)。 鉴于谐波分析无法准确识别数据的季节性波动,笔者遂采用ARIMA(Autoregressive Integrated Moving Average Model)模型进行重新拟合(图2-6 B)。
图2-6:1990-2009年江苏省细菌性痢疾
发病数平滑折线图05 面积图Area Graph
面积图,是在折线图基础上,将折线与横轴之间区域用色块填充,以突出趋势,立增美感。
本例将以Johns Hopkins University团队收集的新冠疫苗接种数据为例,展示美国纽约自2021年1月22日至2021年10月1日,人群疫苗完全接种率和部分接种率之趋势(图2-7)。
图2-7:美国纽约人群新冠疫苗
接种率趋势面积图
06 堆叠面积图
Stacked Area Graph堆叠面积图,是在面积图基础上,在任意时点,将多组(多个序列)数据相叠,每一系列的终点是后一系列的起点,既可体现累计数量趋势,又可反映各组趋势,和各组构成比的变化。
本例以中华人民共和国国家卫生健康委员会(简称国家卫健委)官方网站所公布的我国首轮新冠疫情期间(2020年1月22日至5月6日)武汉市,湖北省除武汉市,全国除湖北省的累计确诊病例数绘制堆积面积图(图2-8)。 可观察到三种不同地区病例数增长的趋势以及与整体占比变化,2020年2月13日新冠累计确诊数突增是因为我国当时将临床诊断病例也纳入确诊病例。
图2-8:中国新冠肺炎累计确诊病例数堆叠面积图
07 量化波形图Stream Graph
量化波形图,亦称河流图(river chart),是堆积面积图的一种变形图,形似“河流”,亦得此名。
与面积图不同的是,量化波形图是指定某一Y值作为基准线(中心线)来描述数据的相对浮动,该基准线不一定是笔直的。事实上,堆积面积图亦有基准线(即X轴)。
该图最早出现在Susan Harve等人2000年的论文中[4],首次用波形图展示古巴第一位领导人Fidel Castro在1959年末至1961年6月期间,演讲、访谈等内容中词频统计(图2-9)。
图2-9:1959-1961年Fidel Castro演讲、访谈等文本信息统计
本例将使用ggstream包来展示河流图的绘制方法。
截止至2021年10月1日新冠累计确诊人数排名前10的国家,绘制从2020年1月22日至2021年10月9日每日新冠新增病例数的河流图(图2-10)。
显而易见,2020年12月美国每日新增病例数突增,而在2021年5月印度疫情暴发,新增病例数在同时间段最多。
图2-10:美国等国家新冠每日新增病例河流图
08 台阶图Stepper Line Chart
台阶图,是线图的另一表达方式,即两点之间不用直线相连,而采用台阶线相连(先水平再垂直连线),形似“台阶”。台阶图将人们的注意力引自发生改变的时间及改变幅度。
可使用geom_step()函数来绘制台阶图。本例展示我国首轮新冠疫情病例数情况(图2-11)。 从图中可见,2020年2月12日,由于湖北地区临床诊断标准的生效,台阶出现大幅跃升。
图2-11:中国新冠肺炎累计病例数和治愈人数台阶图
09 雷达图Radar Plot
雷达图,属于极坐标图,从参考线原点向四周发散,形似“雷达”屏显而得名。
可使用ggradar包绘制。
以笔者团队近期发表的2020年全球166个国家(分布于6个区域,6 种颜色线条所示)的新冠疫情防控情况为例 [5],绘制如下雷达图(图2-12)。 如各极点标签所示,五个极点分别表示各国疫情从未得以控制(never under control),曾经得以控制(once onder control),处于起伏状态(fluctuate),曾经得以控制但已反弹(rebound),反弹超过原规模(rebound greater)。 极坐标上的点所对应的数值体现各地区的某分类控情况的国家之构成比。例如,美洲有超过70%的国家的新冠疫情从未得以控制。
图2-12:2020年新冠疫情全球各国防控情况雷达图
10 动态排序渐进图Dynamic Line Racing Plot
动态排序折线图,即将普通折线图按照x轴进行动态化展示,以便于观众感知变化趋势。可使用ggaminate包来绘制动态图。
本例以新冠疫情全球感染病例数历史数据为例,从WHO网站获取2021年10月9日之前累计确诊病例数排名前5的国家的疫情数据,绘制这些国家确诊病例数随时间增长的折线图(图2-13)。 从图中清晰可见各国累计病例数之趋势和各国的差异,美国新冠肺炎态势最为严峻,印度在2021年6月左右病例数大幅度增加。
图2-13:美国等国家新冠肺炎累计确诊数日增动态折线图
折线图折是为了显示变化趋势,折线避免过多以影响区分度。 应适当选择Y轴的刻度(或值域范围),折线的高度占据图表的2/3时可达较为美观效果。
折线图或面积图系列的X轴只能表示连续数据(时间或者数值),不适合无序分类数据。
堆叠面积图在某一时间点上,数值应有可加性,相加之后应有实际意义。
参考文献:
Playfair W. The commercial and political atlas, representing, by means of stained copper-plate charts, the progress of the commerce, revenues, expenditure, and debts of england, during the whole of the eighteenth century. 2007;2013(10):1245–53.
Wang S, Yu H, Gan Y, Wu Z, Li E, Li X, et al. Mining whole-lung information by artificial intelligence for predicting EGFR genotype and targeted therapy response in lung cancer: A multicohort study. The Lancet Digital Health. 2022;4(5):e309–19.
Waxman A, Restrepo-Jaramillo R, Thenappan T, Ravichandran A, Engel P, Bajwa A, et al. Inhaled treprostinil in pulmonary hypertension due to interstitial lung disease. N Engl J Med. 2021;384(4):325–34.
Havre S, Hetzler B, Nowell L. ThemeRiver: Visualizing theme changes over time. In p. 115–5.
Wei Y, Guan J, Ning X, Li Y, Wei L, Shen S, et al. Global COVID-19 pandemic waves: Limited lessons learned worldwide over the past year. Engineering (Beijing). 2021. Online ahead of print.
写作:张隆垚,魏永越*
排版:李 颖
审阅:陈 峰
欢迎供稿 | 敬请斧正
easyPlot小组 (easyplot@126.com)
责任作者 (weiyongyue@126.com)
Powered by 百步科技