该来的还是得来,9月2日早上起来看到铁子发给我的一条留言:买点菜放着,3-5天即可。我没当回事儿,昨天才发现几粒,还不是一个离我很远的区。9月3日起来,小区不让出门了,看官方公众号说9月3日-9月5日群员核酸三天,原则上全部居家。下楼隔着小区的后门打小卖部电话让送了4个泡面和一箱牛奶。看到前门核酸方舱已经就绪,就等着物业通知我们下楼检测了。中午11点多,下楼去拿铁子发给我送的菜。问大白为什么还没开始检测,大白说核酸系统除了故障无法录入,在等修复。我隔着红线和铁子发聊了几句,他说他打算去当志愿者,我就说如果核酸系统崩了,我也去当个技术志愿者吧。上楼把菜放下,我就给核酸检测系统技术团负责人发了条消息,说系统遇到故障,民生要紧,只要是我专业的领域我都无偿提供服务和咨询。很快收到了他的微信语音电话,那边很嘈杂,简单给我说了情况:系统确实出了问题,目前还没有效的解决方案。小区原则上已经不允许出入,挂掉微信,我们和开发团队拉了个微信群,希望远程能给他们提供一些有效帮助。但他们太忙,发微信的时间都没有。中午3点多,公司业务对接人给我说已经接到政务云运营方的电话邀请,让我们派人过去。公司对调用技术资源有严格的流程,我在中台,按流程一线需求也不会调用我。我说,我也跟着一起去吧,看看有什么能帮得上忙的,正好也是周末,我就以个人志愿者的角色过去。半小时的时间,省大数据库局的车到了小区楼下,和社区做完交涉,把我带到了政务云的运营方办公室。临走的时候,外套里套上了一件公司的logo衫。下午3点多,到了政务云的运营方办公室一楼,硕大的展厅内塞满了人。有人背着手看着大屏,旁边围着一群人;有人面露疲态的埋头敲键盘;有人手持电话转来转去。我在旁边的小办公室找到了系统研发负责人,简单问了几句了解故障情况。让他们匀出了一台能连接系统的电脑,开始排查问题。排查效率很低,系统在政务云上,要取得各种配置、日志数据并不容易,需要协调多个厂商,期间不停有不同的人进来问系统什么时候能好?有没有方案?!没人敢吭声。下午系统逐渐恢复正常,到傍晚6点多我写了个优化方案发给研发负责人,基本确认了晚上我们和开发团队的优化动作,并给各个来询问进度的「领导」讲了方案。特殊的是,我得申请系统1小时的停机时间。申请停机时间对于核酸检测系统这种重要的民生系统,特别是疫情当前是不可能获批的。我的建议当时还没得到重视,直到晚上系统再次崩掉。这次崩掉让市长当天第二次来到了这个办公室。看着技术团队还没有有效的应对方案也非常着急,问xx云的业务对接人升级到哪儿了?!现在全市的老百姓都在绵绵细雨中等着做核酸,直接让他打电话升级到xx云的一把手。 好在这次由于系统崩掉前我手里有台电脑连着系统,因此崩掉前抓到了一些征兆,顺藤摸瓜推测到了根因。于是我调整了优化方案里措施的优先级,把核心数据瘦身和统计业务分离作为当晚停机优化的首要优先级,并强调如果今晚不给系统动个手术,抗不过明天的全市全员核酸检测压力。在我给出数据侧的优化方案时,其他各种厂家和专家也给出了其他侧的优化方案,例如基于各种策略的限流,系统扩容,应用改造,小程序分版本等。从需要的时间、复杂度、风险考量当晚都没得到实施,经大数据局的领导向省里请示,4-5点给我们1个小时的停机时间给系统做手术。从责任方的角度,应该是平台的开发团队来做。哪怕是我给他们写好详细的步骤。 但他们已经几十个小时未合眼了,而且他们也有程序上的优化要实施掉。即便是再专业的医生,几十个小时没合眼都不该再让他做手术了,何况这还是一个IT系统的心脏手术。这个时候,我看着他们疲惫而犯难的眼神,我说“我来”。虽然是我的专业领域,这几年专注于产品和解决方案,已经脱离一线五六年了。而产品又是云厂商的提供的,也不是我最擅长的产品。但我曾经也有多年的一线经验,清楚这个手术的风险和收益,还有一个工程师协助我一起,我也做了两套方案,深夜还call醒了一个在成都的工程师给做远程standby。并且在4点前在另一个准生产环境做完了测试。凌晨4点到了,有个高风险区还有零星的采集录入,我们等到了4:13才开始做变更。所有的领导都为围过来看着我们操作,我说,你们先去旁边等消息吧,我们操作完我过来通知你们。领导们笑了笑也走开了。手术很顺利,当天晚上系统5点半打开,一个区域又开始了新一轮的筛查,大白和居民们也挺辛苦。9月4号,系统运行很平稳,在早上10-11点每小时核酸采集数量轻松超过了前一天最大承载量。系统里面的比较慢的一些业务,也有了20倍的性能提升。接下来的两天我们又按照既定的路线做了两次迭代优化。到9月6号,整个系统能承载的并发核酸检测量保守估计能达到优化前的5倍。从容应对全市级别的全员采集和检测。对于更大规模的全员检测,例如省内多个城市同时全员检测,也有了应对方案。自此,我的核酸系统志愿者行动告一段落,9月6日晚上回了家,领导加了我的微信:
小编:感谢郑同学这样的技术志愿者,小编甚至倡议各地区成立一定规模的技术志愿者组织。
2022年9月4日上午召开的贵阳贵安新冠肺炎疫情防控新闻发布会(第三场)上,云上贵州大数据(集团)有限公司总经理助理、云上贵州大数据产业发展有限公司党委书记、执行董事张平在回答媒体提问时,针对昨天以来,市民反映贵州核酸信息采集平台登录出现访问异常情况公开致歉。张平:昨天中午至晚上,我省核酸检测系统出现异常情况,导致检测进度缓慢。经过认真排查,出现问题的主要原因是对短时超大并发量预估不足,昨日12时许,发生瞬间超大量的并发访问,系统无法满足瞬间爆发的超大访问量,导致核酸检测采集系统延迟卡顿,大面积用户登录迟缓。由此给广大市民朋友,以及辛苦坚守的一线防疫人员带来了极大不便、耽误了宝贵时间,我们万分愧疚!但与此同时,我们也得到了广大市民朋友的宽容和理解,得到了广大防疫人员的支持和配合,我们万分感动!我们也诚恳接受社会批评,向大家表达最真诚的谢意和最深切的歉意!问题出现后,我们第一时间启动应急响应,组织省内外专家组和公司技术团队,在省大数据局、贵阳市政府指导下,积极抢修,有序开展系统优化、性能扩容、流量控制等工作,至昨天下午15时系统逐步恢复使用。此后仍有部分市民朋友出现访问缓慢的情况,主要原因系因采取访问流量控制策略,用户需要限流访问系统造成的。今日凌晨起,我们对系统进行了进一步优化调整,已形成移动、联通两个节点三套系统的互备,同时进一步增加技术力量投入,继续保持7×24小时加强系统监测,持续强化后续突发情况的应对处置,努力保障核酸检测平稳顺利进行,全力以赴服务保障当前核酸检测工作。下一步,我们将竭尽一切努力,不惜一切代价,在省委省政府的坚强领导下,全力以赴服务好全省疫情防控攻坚战。
以分布式设计、架构、体系思想为基础,兼论研发相关的点点滴滴,不限于代码、质量体系和研发管理。