千万学生转在线背后,好未来的科技“抗疫”
刘慈欣曾将地球存亡,寄托于几个乡村孩子身上。
在他2001年的小说《乡村教师》中,更高阶的外星来客,将根据一个文明的进化程度,决定是否毁灭。那几个孩子在测试中,答出了经典力学基本定律,让地球幸免于难。
这些知识,来自一名普通乡村教师的传授。在刘慈欣笔下,教师是在两代生命体之间传递知识的个体,是文明进化的必要媒介。
教育是一座长桥,而突如其来的疫情则让以线下方式为主的传统教育在短期内受到极大冲击。
上亿的学生被困家中,无数教师难以上课,全国学校和培训机构全部停摆。
疫情之中的好未来紧急发起“驰援计划”。
“驰援计划”兵分三路:
一路为全国中小学免费提供直播平台和技术支持;
一路为全国线下培训机构提供线上直播授课解决方案;
一路为受疫情影响不能正常开学的学生推出校内同步免费直播课。
疫情期间,好未来全力支持全国各地公立校500多万师生在线开课;帮助超过4万家教育机构渡过疫情难关;顺利实现学而思培优、励步英语等学员的全面上线;学而思网校、学而思培优等事业部向社会开放全年级、全学科的免费公益课。
这些数字背后,是好未来数千技术人,扛住的一波波流量洪峰,解除的一次次系统危机,鏖战的一个个通宵。
这也是中国教育市场从线下迁徙到线上的一个缩影。
高压战疫的尽头,并非终点。疫情结束后,将会有更多人看到科技对教育市场的价值。
在技术人眼中,这才是起点。
重造课堂
除夕当晚,学而思网校技术团队在春节联欢晚会的背景音下,开了个长会。
会议的核心是,为了将疫情的影响降到最低,让老师们在家直播开课。但离开了直播间专业设备和可靠的网络环境,老师没有经验,技术团队心里也没底。
很多负责人反馈,老师们大部分都回了老家或住在合租房,网络环境很不稳定,隔壁开个迅雷,都有可能让直播卡住,一旦断电断网,就可能影响上万学生。
此时,距离初八开课不足一周,网校团队必须在初五(1月29日)前,彻底解决老师直播的网络问题、环境设备问题,力保给学生们良好的在线学习体验。
网校技术团队负责人立刻拍板,以最快速度采购无线网卡,寄给老师。春节期间网店不发货,他们就满城找实体店扫货。
设备问题基本解决后,下一步是考虑各种网络兼容性问题。
网校技术团队“征兵令”一发,500多名研发人员主动报名。他们登录直播,不停测试问题,再逐一突破。
大年初二(1月26日),网校组成特战队,一一跟进所有老师的设备安装、调试和测试工作。为了给老师们熟悉新的网课环境和备课多争取一点时间,技术伙伴们一干就是一宿。
如果说网校此刻遇到的更多是网络和硬件问题,学而思培优遇到的问题则主要在于“软”的方面。
基于对疫情的预判,腊月二十八,学而思培优产研负责人带着团队就已着手准备学而思培优全量转线上的项目,目标很明确:确保学生初七正常开课。
“全量转线上”寥寥几字背后,近乎是不可能的挑战。学而思培优的优势之一就是深耕线下面授及双师小班课,虽近年也在布局OMO(线上线下融合)模式,但短短几天内让所有线下班大规模转线上,无异于在“高速上换轮胎”。
为已返回老家的老师们搭好系统,部置好硬件已不易,但最大的挑战还是人。
学而思培优的校长和老师们非常擅长面授课堂,但线上课和线下课不是一套教法。疫情之下被迫转线上,如何顺利完成转换?
产研团队明白,这是一场技术驱动的战役,技术人此时要往一线冲。
从腊月二十九开始,技术团队沟通了全国各地分校,从技术科普到问题答疑,一一帮助校长和老师做转线上的技术“扫盲”。
校长听不懂的线上流程,就画示意图,老师不理解卡顿的原因,就制作课件演示。
(学而思培优产研负责人制作的“科普PPT”)
春节前后的几天时间里,他们一直在电话上和各种校长群里答疑解惑,年夜饭也只是匆匆扒了几口。
而在课堂的40分钟之外,学而思培优“全量转线上”,还涉及大量教务工作,这包括学员的学习进度、分班、已选课程、主讲老师等所有信息和流程的短时间线上化。
有分校校长说,如果技术不解决,他们要临时调来30个老师,什么都不干,只处理转班的环节,原定课程只能延期。
教务OMO的重任,于是落在了学而思培优的另一只技术小分队上。
线下线上,看似一字之差,但对教务系统而言,背后要考虑转班、退费的策略制定,涉及到家长、各分校的运营、财务、产研等角色,牵一发而动全身,而此刻产研团队必须要迅速实现海量用户的“无感知”迁移。
按正常开发流程,这样的解决方案从设计到上线,需要一个月,但这一次,同样的任务,技术团队只用了4天。
这背后是一个异常繁忙的春节:除夕那天,产研团队是在漫长的电话会议中度过的,有人手机充了三次电,有人将行李落在火车站,有人匆忙洗了个头,就当是过年,有人到北京当天就扎进了中关村鼎好大厦的办公室里,处理学而思培优寒假班线上平台的问题。
“如果没有平台能力的积累,突然从面授转线上,这件事是很难的。”学而思培优产研负责人说,“我认为这是我们追求长期的力量。技术不脱离业务,是这次考验中,技术人成为火车头的底层原因。”
然而,对业务众多、体量庞大的好未来而言,“高速上换轮胎”的学而思培优全量转线上还不是最硬的仗。
相比提前布局OMO、预测到了突击考试考点的学而思培优,几乎没有线上业务的好未来旗下励步英语则在经历更艰难的“裸考”。
但越大的挑战也往往意味着机会——专注少儿英语领域的励步英语面向3至12岁的学员,家长更钟爱线下教学。突如其来的疫情,意外成为励步转向线上的推力。
励步英语没有线上直播课程基础、经验及团队,同时还有加盟伙伴等待支援。
励步英语产品技术中心负责人主动调配人员架构,从头攒起线上客服、教务、教师团队、行政、采购等全套班底,并从零梳理起业务及客服流程。
他从开课之日倒推,理出了一张行事历。每一天,每个人,要完成哪些任务,都分列清楚。
这次疫情中,励步英语的技术团队有一个共同信念:无论如何,也要把模型架出来,让学生不受影响。
能做到这一步,得益于过去两年对业务的积累。这次疫情大考,考验的不仅是技术功底,也是需要技术人对教育的理解和深耕。
平日,技术团队几乎每周都要去校区跟老师、家长沟通,他们深刻意识到,在教育领域,没有一个家长有单纯的技术需求,用户看重的往往是教育的效果。而成日泡在业务里、不断走近用户、走入课堂的好未来技术人,已习惯通过业务视角看技术问题。
至此,好未来技术人在疫情中已陆续迎战了如下“超纲”考题:一是搞定参差不齐的软硬件直播条件,二是线下课堂从零开始大规模高速转线上,三是磨砺技术驱动业务,技术服务业务的融合能力。
而支撑以上攻坚战的是最难的第四道考题——夯实底层系统,为承载激增的流量“光速完善”直播系统。
开放与扩容
扛住这第四道考题的担子,需要好未来集团直播技术团队和各事业部的并肩协作。
春节期间,集团直播技术团队就陆续接到消息,多个事业部都要从线下转线上授课,扩容势在必行,流量规模“不确定”。
直播技术负责人曾在音视频领域浸淫十年,是一名技术老兵,但接到任务后,仍是心头一紧。
初步预估,仅服务器差不多要增加10倍,直播云系统也要同步优化架构,而且各条业务线情况还不尽相同,整个扩容过程需要集团和业务线技术团队的通力配合。
大年三十,直播云技术团队开了备战会,每个负责人都要盯一条线。
扩容工作紧锣密鼓地开始了,技术团队几乎每天都要到进行到凌晨三点。因为四点他们要恢复系统,确保七点上课时系统稳定可用。
那时,好未来技术同事之间说的最多的一句话是“你先睡,等我扩容之后,给你打电话压测”。为随时接电话,技术人通常和家人分睡,有人就在客厅沙发窝一宿。
扩容期间,各条业务线的扩容目标不断翻新。压力来自于未知,没人知道安全数字是多少,每一次目标翻新,都是在无限逼近答案。
作为公益课的主要输出平台,网校的压力首当其冲。
依经验看,公益课开课后,网校的同时在线人数可能将是数百万规模。去年暑假,网校直播系统同时在线人数达到峰值,超过30万。也就是说,一周后,网校系统将面对10倍甚至于20倍的流量冲击。
不仅于此,课堂不同于一般的直播,要求低延迟、不卡顿,而且除了观看、留言,老师和学生还有大量课中互动。系统的运算能力并非叠加,而是指数级上涨。
为此,网校技术团队组织起一支160人的护堤队,保护系统稳定性。
第一次扩容目标,是200万人同时在线。考虑到在家开课高峰,这一目标最终改成了1000万人同时在线。
为完成异常艰巨的扩容任务,网校技术负责人找到集团的采购与运维团队寻求支持。
而疫情中的春节,全国封路,物流缓慢,服务器到货要两周,根本来不及。采购团队调动了所有资源,在北京找到一批存货,及时顶了上去。同时,运维团队又从其它机房搬来机器,需要部署的服务器超过了1000台。
(各部门从各地采购服务器、网络设备等硬件资源)
整个扩容任务有如生死时速——留给业务线的时间不过3天,给到开发的时间仅1天,最后留给运维的时间,就只有8个小时。
集团运维团队在工作群里,向一直在北京的同事求援。几分钟后,20多个伙伴报了名。
第二天,20多名运维员工,裹着棉服,戴着口罩,一推车一推车地搬运机器。仅一天时间,600台服务器全部上线。
(过年期间运维团队在机房部署服务器)
来帮忙的合作商说:
“我们从来没有一天部署600多台服务器,你们好未来创造了历史。”
但好未来技术人,并不认为自己在做一件“创造历史”的事情。
然而对一线技术人来说,他们无暇顾及自己完成的不可能,因为战斗还没有结束。
部署完服务器后,紧接着是系统开发和调试。
疫情期间,网校的全天免费直播课开放给了央视频、学习强国、新华社、腾讯、爱奇艺、抖音、B站等众多主流内容平台。这也意味着网校必须在极短的时间建立起面向各渠道的公益课导播平台,并扛住巨大的流量冲击。
面对这个“紧急任务”,网校的工程师通宵作战整整一夜,快速搭建了导播平台,又用两三天时间打磨完善,确保稳定性后,立刻向60家合作平台开放。
若在平常,搭建这样一个平台,需要两个月。
有些平台要求直播不断流,但网课是有课间的。于是50多名工程师集中攻坚,解决切换视频时的黑屏问题。电视平台需要高清画质,这些工程师在保持清晰度的前提下,将视频带宽成本从每秒1.2M降至750K,只为了让网络环境不好的学生也能流畅地听课。
网校之外,由于面授老师的紧急“上线”,学而思培优产研团队也早就开始全力筹备扩容。
为了提高效率,保证学生按时开课,春节期间30个研发测试和运维同事提前回到公司。受疫情影响,大厦空调全关了,而且还要开窗通风。这群技术人带着口罩,裹着棉服,在北京的寒风中与疫情争分夺秒。
他们预估,开课后的线上流量,将是疫情爆发前的4倍。
然而,扩容大考不止于此。这场疫情中,不只是家长和学生需要帮助,更大的挑战来自行业里的教培机构和公立校。
驰援计划中,好未来通过直播云,为机构与公立校提供直播授课技术及产品支持。
一方面,行业里的各类机构和公立校的老师很难按统一的要求行动;另一方面,由于规模、所处区域不同,机构、公立校班型不同、需求各异,直播云要提供“个性化”服务,这意味着,服务器也将面对更复杂的计算。
驰援计划发布后,求援电话不断涌入。
计划发出的半天时间里,好未来智慧教育研发部技术负责人接到100多个咨询电话,来自老师、校长,甚至各地教育局。接电话的同事一整天没时间吃饭,手机也一直充着电。
焦虑的不只公立校。驰援计划发布期间,好未来直播云的产研团队发现,注册机构数一天内新增过万,这是此前几年不可能出现的现象。
数字背后,是数万徘徊在生死之间的中小机构,一旦停课,家长要求退款,线下租金和人工成本将压垮一批中小机构。为了帮助挣扎中的中小机构抢夺时间,直播云技术团队连夜开发自动审核功能,所有注册机构一键通过审核。
疫情锁住城市,洪流呼啸着扑向线上。一周后,机构注册量数万,公立校数百家。
看着不断上升的数字,正在苦战的技术团队还有点激动:哪个工程师不想亲自打一场大仗呢?
慢慢地,压力和紧张涌上来。因为每一个数字背后,都是一家处在生死边缘的企业和成百上千的学生。
技术,必须要扛住。
很多机构原计划2月1日就要开课,扩容刻不容缓。第一阶段目标,直播云团队就将同步在线的扩容目标人数从7万提升到30万,没过两天,这一数字变成200万。几乎每隔一天,扩容目标就会翻番。
开课就在眼前,虽然夜以继日地做准备工作,但技术人的心都悬着,谁也不知道当用户涌上来时会发生什么样的情况。
1月31日初七,凌晨两点,从安徽的一个村庄里开出一辆车,两道灯光划破夜幕。
驰援计划启动前,一位好未来工程师决定夜奔八百公里,返回北京。
他的身旁是困倦的家人,后备箱被父母装满了食物,足够吃一个月。
三个人,一辆车,就这样纵贯华北,闯入黎明。
流量攻坚战
开课的号角吹响后,学而思网校的免费公益课上线,学而思培优和直播云支持的第三方教培机构的也陆续正式开课。
技术团队正面迎向流量的冲击。
2月1日,已经前后奋战一周的好未来技术人员早早起了床,在电脑前待命。
10点,高峰期刚过5分钟,教培机构的老师和学生纷纷反馈,系统登录不上去。
后台数据显示,10点一到,在线用户数直线上升,数据库锁死。
由机构侧引发的宕机也迅速波及到了学而思·爱智康等自营业务。
到下午,已有部分功能恢复,校外机构陆续上线,可以正常运行。傍晚,技术团队梳理出近30项系统问题,都是在小流量时无害,大流量时可能导致系统崩溃的隐患。
这次宕机让所有人警觉起来:此前扩容、压测都是理想状态下的,实际情况中大流量带来的冲击很难预测。
一天千万用户在线,百万并发,如果不是这次疫情,教育行业或许要在若干年后才会遇到这些状况。但现在,他们要“一天当一年过”,将在线教育未来几年要趟的坑,在这几天内趟完,填上。
从集团到各条业务线,好未来技术团队要通力配合,一起攻坚:一方面,技术团队在白天进行风险监测防控,夜里升级架构,优化代码;另一方面,集团和业务线协作通宵扩容,同时模拟直播时可能遇到的各种情况进行压力测试。
2月2日近凌晨四点,直播云系统正式修复。
随着越来越多机构开课,系统用户还在不断攀升。
2月3日上午9点半开始,直播云同时在线人数直线飙升至20万。意外发生了,学生反馈看不到课件。
此时的系统可承载百万级别同时在线,但系统排查发现数据库内存已被占满。
集团技术人员经过分析,找到问题出在合作机构的小班课——流量激增的同时,直播云承载的班型非常复杂,有大班直播,有一对一,也有1对16的小班课,数据库承担的压力也比单一班型更大。尤其是小班课的互动性很强,因此数据传输量大大增加,对数据的处理能力也就提出了更高要求。
(教培机构借助直播云上小班课)
技术团队连夜扩容。
第2天,直播云正常上线。有工程师回忆起这一幕,感触颇深:
“当遇到困难的时候,大家会打破团队的边界,伸出手来一起解决困难。”
同时,直播云技术团队也明白,此刻不仅要做代码层面的优化,还要做数据库的升级,才能让整体内存配置得到提升。
为了保证白天正常开课,这段日子里每天留给各技术团队的时间窗口只有几个小时,早晨7点前必须完成服务升级。
2月5日的凌晨,直播技术团队完成服务升级的同时,更要升级整个数据库。意外发生了,第三方的云服务平台突发状况,导致数据库升级失败。
此时重新迁移数据库已来不及,直播云技术团队只能启用应急方案,用回老数据库。这时的数据库“性能是不够的”,导致老师和学生看不到课件或不能涂鸦。
从出现问题、定位问题到解决问题,技术团队只用了两个小时。看着机构陆续上线,反馈“没问题”,这些工程师终于松了一口气。
虽然处理迅速,但技术团队的气压越来越低。
“这是最后一次,必须是最后一次。搞不定这件事,对不起团队伙伴的付出,对不住机构的信任。”
项目期间,很多伙伴一连撑了九天八晚,每天只睡两三个小时。有一天晚上,会议刚刚结束,一名技术伙伴没来得及挂电话,就抱着电脑,沉沉睡去。
呼噜声顺着手机传出,技术伙伴们轻笑两声,但谁也没有挂断,继续进行测试和优化,着手准备新一天的战役。
2月5日之后,直播云一直平稳运行。在这段时间里,他们将系统扩容了百倍,排查了每一项潜在风险,同时还开发了签到、小班课iOS端等新功能。
一波未平一波又起,就在肩扛洪流的时刻,作为免费直播课的主阵地,网校突然遇到了大规模攻击。
2月7日下午1点41分,免费直播的课程列表无法打开。网校技术团队按照事故预案,开始排查故障原因。
但他们发现,直播平台并没有超大规模的流量,机房却有每秒200G的异常流量涌入,一秒钟就将入口带宽占满。
所有迹象指向一个可能,他们遭到DDOS攻击。技术团队迅速进行流量清洗,集团后台第一时间派来安全专家,加固防火墙,云端强化防护,以避免攻击对直播课造成较大影响。
2点48分,危机被极速解除。晚上7点半,又一波流量攻入,此时防护机制起效,除了一个H5页面之外,对直播课程没有造成影响。
对于技术团队而言,这是一次难得的历练。网校的一位技术伙伴感叹,发现被攻击的瞬间真的是汗毛都立了起来。
学而思网校技术负责人说:
“在高峰流量场景中,每一个问题一旦发生,就很容易会被放大。这场仗考察的其实是整个集团的组织能力与技术深度,刚到好未来时,我发现网校研发团队很年轻,经过这次洗礼之下,我看到的是一支能打硬仗的团队。”
除了原有线下学员顺利转线上,学而思培优开放的公益课产品也帮助了很多学生。
经此一役,好未来技术团队和一直投入布局科技的好未来集团,都完成了一场自证。
借假修真
可以说,疫情突发情况带来的这一意外之战,是好未来借假修真的关键一役——在外部大危机之下,推进了科技与整体业务的融合进度。
学而思网校的技术团队在近一个月的时间里,干了原计划一年的产出,让网校的平台能够从容应对更大的风浪。
他们将复盘提上了日程,计划尽快把战疫过程中遇到的技术难题、应对策略和效果做系统性的总结,纳入好未来技术学院的“知更鸟课程”中。让宝贵的经验有所传承,培养更多的教育技术人。
顶住寒假班转线上压力的学而思培优产研团队,马不停蹄的投入到春季班的筹备中。重点进行在线课堂体验的升级优化,增加更多交互功能,并将语音识别、笔记识别等AI能力融入其中,激发学生在线学习的动力。
这次疫情,也让大家对学而思网校与学而思培优在线的差异有了更清晰的认识,理解了用户对线上课也有不同的诉求。学而思培优的OMO实践更是向前跨了一步。
励步英语技术团队对OMO同样有了更深的理解。一位技术负责人说,两年前,刚从互联网公司来到好未来,意识里只有“线上颠覆线下”,线上即一切。而加入励步英语后,他发现教育行业的特别之处:流量并非流量,而是真真切切的人。
他说,“线下家长和我在互联网公司碰到的用户不一样,用户在互联网的语境里指的是数字、标签,但在教育里,每一个用户都是一个孩子、一对父母、一个家庭。”
这次技术大考不仅挖掘出励步英语的线上教学能力,也为励步英语的OMO埋下了一颗种子。
直播云稳定运行100小时后,技术团队很多对产品的新想法也开始逐一推进,他们认为,要想为行业伙伴提供长期可信赖的在线教育平台,直播云需要的不是“抢险队”,而是一支“工程队”。
他们扮演老师和学生,体验一堂又一堂在线课,逐项进行功能体验测试,参考日志挖掘细节,如果优化也无法解决的问题,就干脆推倒重写代码。
在产品功能未缩减的情况下,运算量大幅降低,机器利用效率得到了比较大的提升。这意味着有更多机构能够通过直播云获取稳定高效的在线教学支持,也会有更多地区的孩子有机会享有高质量的教育资源。
步入三月,北京气温高时已达十几摄氏度,进入了一年最好的季节,疫情也逐渐向好。
但这不是终点。好未来多条业务线的线上化能力和OMO探索是整个教育行业进一步信息化、数字化的一个缩影。
对致力于融入教育,乃至各种行业的工程师来说,他们脚下的旅程才刚开始。