李星:互联网技术和教育信息化的历史与未来
希望到2030年,中国的网络研究者,CERNET的工作者,也能取得世界领先的成果,自豪地说出这句“我们做到了”!
——李星
李星 CERNET网络中心副主任、清华大学教授
互联网技术进化:IPv6将成为新热点
谁更伟大?科学家还是工程师?
对很多领域来说,科学家发现了自然界的规律,而工程师在理解它之后,再依据规律去实现各种工程。这样看来,科学家的角色更重要。
但也有一个例外,那就是互联网。因为TCP/IP网络协议是工程师设计的,相当于创造了一个新的定律。实际上,无论是牛顿还是爱因斯坦,科学家们把物理空间中存在的某种规律发现出来,但真正规律的缔造者其实是自然界。而与物理世界相对应,网络则全然不同。在网络的世界中,工程师充当了“自然界”的角色。
但比起自然界,工程师创造互联网似乎更难,因为工程师是人,而人对问题的理解力总是有限的。
互联网是没有“设计蓝图”的,从诞生之日起,就在一步一步演进,拥有“设计原则”和“技术组件”这两个属性。
设计原则
互联网的本质是无中心的分布式系统,可以说,这是互联网“以不变应万变”的设计原则。
1964年,美国的保罗·巴兰(Paul Baran)提出分组交换概念,其核心就是分布式无中心的拓扑结构。
1972年,法国的路易·普赞(Louis Pouzin)提出Cyclades网络结构。他认为,用户终端不应该相信网络是可靠的,因此网络可以不完美(也不可能做到完美),由此产生了互联网的主要设计原理:尽力而为,端到端。
1978年,温顿·瑟夫(Vint Cerf)等互联网先驱将原始的互联网传输控制协议(TCP)的功能分为两个协议:TCP和IP,最终形成了著名的TCP/IP的沙漏模型。
图1 TCP/IP 沙漏模型
具体来看,互联网设计原则可以总结如下(详见RFC1958):
1.网络协议必须适应异种机之间的互联;
2.依靠标准选择某一个方法;
3.具有很好的扩展性;
4.找到性能、成本和所能实现的功能的平衡点;
5.保持简单性;
6.模块化;
7.不要等待找到完美的解决方案;
8.尽量避免选项和参数;
9.在发送时应严格,在接收时应宽容;
10.小心处理自己没有请求而收到的分组;
11.避免循环依赖性;
12.对象应该能够自我描述,必须使用由IANA授权所使用的编码;
13.任何协议都应使用统一术语、注释、比特和字节顺序;
14.只有当实现了几个能够运行的程序后,Internet的协议才能成为标准。
技术组件
互联网的“组成模块”是指具体的技术。由于有了不变的设计原则,互联网的组成模块一步一步演进。如果以十年为一个周期,在互联网的不同发展阶段,有着不同的代表性技术热点。
1970年代,最重要的技术是NCP;
1980年代,最重要的技术是TCP/IP;
1990年代,是DNS、BGP;
2000年代,WWW出现,最重要的技术则是HTTP;
2010年代,因受斯诺登事件影响,加密的HTTPS广受关注;
现在是2021年,预计IPv6相关技术模式将成为2020年代,也就是下一个十年的热点。
这其中最主要的原因,就是IPv6拥有丰富的地址资源。随着互联网的发展,IPv4的地址枯竭,很多应用受限于IPv4的地址数量。
根据美国科学基金会在2016年的一项预测与比较显示:1980年代,每十人平均拥有一台计算机;到2016年,每个人平均拥有十台计算机,而到2051年,大约每个人平均将拥有一千台计算机。
图2 IPv6地址空间
如此大量的地址需求给了IPv6大显身手的机会。而当前,我国正加紧推进IPv6规模部署的国家战略,我们能否把握这个难得的机遇,掌握未来的网络核心技术?
标准制定
信息技术的发展速度非常快,而互联网发展却相对稳定:IPv4形成于1983年,至今变化不大;BGP4确定于1993年,现在仍然在使用,没有出现像BGP5等新版本。这就不像移动通讯领域的2G、3G、4G,到现在的5G,不断更新迭代。这源于TCP/IP等互联网协议的稳定性。在稳定的基础上,才能不断扩大规模,达到全球互联互通。
互联网的稳定发展基于互联网标准的制定,标准制定大概遵循以下几点原则:
1.开放参与。任何个人都可以向IETF提交标准草案(Draft)。标准决策过程中的多元参与增强了多利益相关方的合法性。例如,业界一直以来提倡的“open source(开放源码)”正是遵循这一原则。
2.流程透明。从草案(Draft)到标准(RFC),全程记录邮件收发并公开会议记录。如果你要在互联网上做点事,符合透明开放,就能经得起考验。
3.公开发表。通过IETF网站向全社会免费发布RFC。流程透明、公开发表提供了公众监督及问责的机会。
4.免费使用。标准制定者自愿放弃专利,免知识产权费。互操作性促进互联网的创新和变革。从专有协议到提供了互操作性的开放的互联网标准,是一场显著的社会技术变革。
免费发布和免知识产权费的互联网标准,提供了开放性和互操作性的传统。正是这种始终如一的开放性规则,促进了互联网软硬件创新的飞速发展。
同时,互联网标准制定的关键词还有“开放”、“自下而上”、“技术自愿釆用”、“功能互操作性”、“全世界可达”等特性。
还有两个关键词非常值得一提,那就是:“能够竞争的时候就尽量竞争”,“只有需要合作的时候才合作”。因为经过竞争打拼出的标准才具备生命力。
从互联网发展的历史看,真正的创新需要具备五个因素:“叛逆的思想”、“大的战略背景”、“充足的经费”、“市场经济的驱动”,以及“精英团队”。
教育信息化网络:要留足创新空间
架构设计
在《教育信息化中长期发展规划(2021-2035年)》和《教育信息化“十四五”规划》的编制过程中,我们总结出新一代教育信息基础设施架构,其设计包含的元素有“两个设施,三个平台,两个体系”。
图3 新一代教育信息基础设施架构
在最底层是以“TCP/IP”为基础的网络基础设施,其上是以云服务为代表的数据服务设施,它们通过技术的整合和演进为上层平台提供越来越强的通讯能力、计算能力和存储能力。在支撑运行体系和绿色安全体系的赋能之下,全面支持科研平台、教学平台和创新平台这三大应用平台的建设和发展。
这三个平台采用“网络切片(专网)”的设计理念。专网的特性有:统一和分级管理的TCP/IP网络,统一分配的IP地址,统一管理的域名,保证网内信息传输的服务质量,与公众互联网之间设立明确的管理边界。
但专网并不封闭,用户可通过专网接入公网,访问到合适的网络资源;同时,又可以拥有一个独立于公网的“空间”,为利用网络自主创新提供条件。
发展趋势
网络发展,特别是教育网络信息化的发展,预计将呈现以下趋势:
首先,专网和公网融合。疫情期间,大规模的“停课不停学”居家学习,让我们更加深入思考教育专网的内涵。未来,教育专网应该是无处不在的,专网和公网的融合是大势所趋。
网络和数据融合。未来网络基础设施和数据服务设施之间的交互会加强。
现实和虚拟融合。当前的热点“数字孪生”(DigitalTwin),就是以数字化方式,对某一物理实体进行虚拟仿真。
此外,教学和科研融合,科研和创新融合。这和教育信息基础设施架构所提到的科研平台、教学平台和创新平台相一致。
最后,还有科学和人文融合,历史和未来融合,学校和社会融合,中国和世界融合等趋势。尽管当前我国面临着严峻复杂的国际变局,但考虑到“构建人类命运共同体”等政策方针,教育网络的全球化发展仍然不可逆转。
衡量指标
在疫情防控的实践应用中,我们总结出新一代网络基础设施需要具备的三个特性:
1.“服务质量可测性”,包括实时应用支持、自动调度等;
2.“安全风险可控性”,既能合规,又能发展;
3.“应用演进可行性”,也就是要留足可演进、快速迭代的空间。
而新一代教育信息化中的网络基础设施有如下衡量指标:
1.优于公网的访问质量,尤其是访问科学数据库、教育科研信息相关资源;
2.体现教育网的特殊性,拥有公网无法访问的信息资源;
3.超高性能信息传输,包括高性能计算(High Performance Computing,HPC)等;
4.开放的创新环境,包括创新项目、教育专网(大学)、开源信息共享等,一定要给大学校园提供创新的空间。
教育信息化应用:遵循三个准则
教育信息化从某种意义上看,比做网络还要难。供求不对称可能是系统开发中最大的问题。
中国有一句老话,叫做“知难行易”,用户常常对于信息系统的真实需求描述不清。用户真正想要什么?系统的开发者能不能领会他的需求?
对信息系统开发制作,我的三准则是:历史记录、进化空间、学习曲线。每一个准则都需要回答一个拷问。
历史记录
10年,100年后,1000年,10000年……后的考古学怎么看现在?
在考古界和人类文明史中,有“缺失的链环(Missing Links)”这样的描述。比如,鸟类,大家认为是从恐龙进化而来的,但很少找到化石。在这个进化过程里,发生过的环节消失了,不留痕迹。
人类进入计算机时代后,随着存储设备的升级,软件的版本更新,很多历史记录无法再读取或运行,“缺失的链环(Missing Links)”现象更加广泛存在。这意味着可能目前所有互联网上的内容都会变成“缺失的链环”,很难想象未来的考古学家面对这种情况会做出何种反应。
在学校的信息化中,这种情况也处处可见。比如学校的网页,我们还能找到过去某个时刻的网页情况吗?可能很多学校都找不到了。做好教育信息化应用,一定要注重历史记录,要对得起历史。
IETF的RFC、HTML、TeX、UNIX等都是较好的注重保存历史记录的信息系统设计案例。我们由此总结出应用系统的框架设计思想:简化最常见的任务,让不常见的任务不至于太麻烦。很多时候人们花了很多时间却抓不住重点,因为他们想取悦所有人。但关键在于我们不可能取悦所有人,只能明确哪些人最重要;只为80%设计;给内容创建者最大的权利;默认设置智能化。
而如果信息系统的设计面临矛盾的话,要遵循这样的优先级:用户第一,文档的作者第二,程序员第三,标准第四,理论的完美性排在第五。无论何时,用户的优先级是最高的。
真正好的信息系统一定是顶尖的人写的。在一流大学,信息系统使用者是一流的学者和学生,如何为他们提供好用的信息系统?如何创造出用户喜欢的产品?
答案有:从制造简洁的产品入手;保证自己愿意使用;设置默认值,而不是限制用户使用;无论何时,都要使用自己的软件。
微信创始人张小龙说的一句话,我非常认同,他说:如果解决方案非常复杂,那一定是问题错了。真正好的应用,解决方案一定是优雅简单的。
进化空间
有没有做与当前主流不符合的研究的空间?能不能在大家都不看好的时候就能专注一项研究?
以IPv6过渡技术实践为例。2017年底,中共中央办公厅、国务院办公厅发布了《推进互联网协议第六版(IPv6)规模部署行动计划》,提出大规模部署IPv6的国家战略。
但IPv6过渡技术实践之路却并非一帆风顺。当年,纯IPv6网络、IPv4/IPv6翻译的技术路线并未得到足够认可,无论从IETF的技术建议还是各国政府的政策都是双栈模式。
有意思的是2020年,美国管理和预算办公室(OMB)发布了IPv6部署和使用指南。尽管指南比中国的IPv6规模部署行动计划晚了不少,但它却明确提出,双栈模式未来将难以维护,要向纯IPv6网络迁移。现在回头看,纯IPv6是未来的必然趋势。CERNET从一开始就顶着各种非议一直坚持纯IPv6网络的建设,这一步无疑是走对了。
这就说明了,互联网技术发展的速度比任何政府能够控制的都要快。这也同样带给我们启示:一方面,做研究、做战略要有超前的眼光;另一方面,要有自主创新的空间,能跟得上网络技术发展的脚步。
学习曲线
需要重新学习另一种技巧,而不是新的知识和智慧吗?
我们需要思考的是,在信息系统、软件的迭代更新中,用户为达到同样的目的,是需要浪费时间学习另一种“技巧”,还是真的在学习新知识、新智慧?
图4 人类文明金字塔
在代表人类文明的金字塔中,从下往上,依次是“数据”、“信息”、“知识”,最顶层是“智慧”。目前来说,教育信息化处理数据没问题、处理信息也没问题,但能否处理知识、智慧?还是一个问号。
掌握核心技术要重视基础研究
目前,教育网的蓝图中有四张网:CERNET、CERNET2、FITI和教育专网。令人振奋的是,其中至少有三张网已经落实。除CERNET(IPv4)、CERNET2(IPv6)外,未来互联网试验设施FITI(Future Internet Testing Infrastructure)也可以称为CERNET3,已进入建设阶段。
与CERNET、CERNET2以学校为接入单位相比,FITI还有一个新特点,就是能延伸到实验室,延伸到院系,延伸到教研组,更好地进行创新。另外,教育专网建设方案正处于审批流程中。
从互联网技术和教育信息化的发展历史来看,如何才能掌握互联网核心技术,是一个经久不衰的话题。回顾CERNET的发展历程,我们会明白这样一个道理:要注重基础研究,只有注重基础研究才会产生伟大的想法;也只有基础研究才能产生大师级的人物。希望CERNET,CERNET2,FITI(CERNET3)这三张网能创造这样的环境,让伟大的想法和伟大的人物诞生。
在CSNET举办的亚洲接入互联网35周年纪念座谈会上,有互联网先驱指出:
TCP/IP和Unix在一开始都不是明显的赢家;网络的国际需求强劲,但费用、电路稀缺等因素障碍了相关进展;另外,由于美国政府的参与,将非美国机构连接到网络需要政策审查,等等。
总之,将互联网接入国际的过程非常不容易,但如今回顾历史,他们却可以自豪地说出“And yet——We did it!(我们做到了)”!
这也是我对中国互联网研究的期盼,希望到2030年,中国的网络研究者,CERNET的工作者,也能取得世界领先的成果,自豪地说出这句“我们做到了”!
本文根据李星教授的报告《历史和未来:互联网技术和教育信息化》整理。
整理、责编:项阳
投稿、转载或合作,请联系:eduinfo@cernet.com
往期推荐
● 李星:信息化规划要为未来留出迭代空间