IBM“认知课堂”如何使用Docker服务于超百万学者
“认知课堂(Cognitive Class)”是IBM面向全球技术人员提供的高质量课程学习平台,课程主题包括人工智能(AI)、机器学习、数据科学、大数据、分析和数据库等,前身为IBM Big Data University。自发布以来,“认知课堂”跨过了一项又一项里程碑,如今已拥有超过100万名学习者。
这篇文章中将分享IBM“认知课堂”在技术方面的里程碑和演变,特别是平台是如何从一个静态基础架构转变到现在使用Docker、运行着数十个Open edX实例的动态+可扩展部署的。
OPEN EDX 101
Open edX是edx.org提供的开源代码。它由几个存储库组成,edx-platform是其主要存储库。如果想要部署Open edX实例,官方的方法是使用配置好的repo,通过Ansible playbooks自动安装。这种方式需要访问正在运行Ansible playbook的服务器。在这些完成之后,你将获得一个全新的Open edX部署。
IBM也是这样运营cognitiveclass.ai(我们的对外网站)的,从2015年开始IBM将“认知课堂”从Moodle部署转移到了Open edX上。Open edX提供了很好的服务,使得我们每天可以为数百名并发学习者提供超过70门课程。
但我们仍然面临着一些挑战:
Open edX主要针对的是Amazon的AWS服务,但我们要在IBM Cloud上运行我们的基础架构。
需要创建虚拟机来部署新实例。
Open edX从存储在服务器中的JSON文件中读取配置信息,每个实例必须保持这些文件同步。
虽然我们能够在大型的单一部署中克服这些问题,但对于我们的新目标对象,Cognitive Class Private Portals来说它们会变得很难管理。
商业用途的“认知课堂”
在向其他公司介绍时,我们经常会听到同样的问题:“我怎么样才能让我的员工明白并使用这些内容呢?”,这也是我们为“认知课堂”创立“专属门户(Private Portals)”的动机所在。
“专属门户”是一个专门为客户创建的专用部署,用户可以独享专属于他的“认知课堂“,可以创建自定义学习路径、自行定制课程、追踪学习进度、设置访问限制、创立竞赛等等。“专属门户”服务是IBM为团队、部门、小型企业、大型企业、学术机构和培训提供商等推出的。从技术角度来看,这就要求我们能够快速按需推出新的部署。我们回到前文提到的几点挑战,随着部署数量的增长,第二点和第三点尤其具有挑战性。
为每个部署创建和配置新的虚拟机是一个缓慢而且昂贵的过程。如果某个Portals超出了它的资源,我们不得不需要找到一种方法来扩展它,并且在多个虚拟机中管理它的配置。
使用Docker
与此同时,我们在Virtual Labs(供课程用户进行实践操作的环境)的基础设施中遇到了类似的需求,数百个虚拟机的使用让管理非常混乱。于是IBM的Virtual Labs团队开始研究并且实现基于Docker的解决方案。
对我们来说,Docker的主要好处有两个:
提高服务器的使用密度;
隔离服务进程以及文件。
这些好处是密切相关的:因为每个容器管理自己runtime和文件,我们能够在同一个服务器上轻松运行不同的软件,而不会相互干扰。与虚拟机相比,我们这样做的开销要低很多,因为Docker在它们之间提供了轻量级的隔离。
通过提高使用密度,我们能够在少量大型服务器中运行数千个容器,这些服务器可以提前进行配置,而不需要去管理数千个较小的实例。
对于IBM的“认知课堂-专属门户“网站来说,这意味着我们可以在几分钟内准备好使用新部署。底层的基础设施已经就位,所以我们只需要启动一些容器即可。
使用Rancher管理容器
Docker本身就是一项出色的技术,但面对高度可扩展的分布式生产环境,我们仍需要借助其他工具或平台来管理容器的生命周期。在“认知课堂”平台中,我们决定使用Rancher,它能够让我们将基础设施抽象出来,只需专注于应用程序本身。
简而言之,Rancher将容器组织成服务,接着服务被分组到stack中。把stack部署到环境中,而环境由主机控制,主机是最终启动容器的底层服务器。Rancher负责在所有主机上创建专用网络,以便他们可以相互安全地进行通信。
让一切运行起来
我们的网站采用微服务架构,都在Rancher中以stack的形式组合在一起。Open edX是主要组成部分,它可以分为较小的服务。除了Open edX之外,我们还有其他几个组件可以为我们的产品提供额外的功能。下图是我们的Rancher界面示例:
这里有非常多的内容,所以我们来快速解释一下这些内容:
🔷 Open edX
lms:这是学生访问课程内容的地方
cms:用于创作课程
forum:处理课程讨论
nginx:提供静态资源
rabbitmq:消息队列系统
🔷 附加组件
glados:管理员用户界面,用于控制和自定义Protal
companion-cube:用于开放Open edX额外功能的API
compete:运行数据黑客马拉松的服务
learner-support:内置的学习者支持系统
lp-certs:为完成多门课程的学生颁发证书
🔷 支持服务
cms-workers和lms-workers:执行lms和cms的后台任务
glados-worker:执行glados的后台任务
letsencrypt:使用Let的加密自动管理SSL证书
load-balancer:根据请求主机名控制路由到服务的流量
mailer:代理SMTP请求到外部服务器或者以其他方式发送电子邮件
ops:用于运行特定任务的容器组
rancher-cron:按照类似cron的计划启动容器
🔷 数据存储
elasticsearch
memcached
mongo
mysql
redis
其中ops服务的行为和其他服务的行为有所不同,因此我们深入研究一下:
这里我们可以看到在ops中有几个容器,通常情况下它们是不运行的。某些容器(如edxapp-migrations)会在部署Portal时运行,但除非在特殊情况下(例如数据库架构更改),否则不会再次启动。而其他容器,如backup,由rancher-cron定期启动,一旦完成就停止。
在这两种情况下,我们都可以通过单击启动按钮来触发手动启动。这样我们能够轻松地按需运行重要的操作任务,而不需要使用SSH进入特定服务器,确定要运行的脚本来执行。
操作文件
Docker的一个关键特性是每个容器的文件系统都是隔离开的。这意味着,如果没有适当注意,在容器死亡的时候您可能会丢失重要的文件。处理这种情况的方法,是使用Docker的卷将本地文件系统路径挂载进容器。
此外,当您有多个主机时,最好有一个共享数据层,以避免在容器和服务器之间创建隐式调度依赖关系。换句话说,您希望容器能够访问相同的文件,而无论它们运行在哪个主机上。
在我们的基础架构中,我们使用IBM Cloud NFS驱动器,它安装在所有主机的相同路径下。NFS负责存储Portal生成的任何持久化数据,从数据库文件到已编译的静态资源,比如镜像、CSS和JavaScript文件。
每个Portal在NFS驱动器中都有自己的目录,容器会挂载该特定Portal的目录。因此,一个Portal无法访问另一个Portal的文件。
其中一个最重要的文件是ansible_overrides.yml。正如我们在文章开头所提到的,Open edX是由进程启动时所读取到的JSON文件配置的。Ansible playbook在执行时生成这些JSON文件。
为了把Portal管理员对glados所做的更改应用到Open edX的lms和cms,我们将ansible_overrides.yml挂载到容器中。当某些内容发生变化时,glados可以将新值写入此文件,lms和cms可以读取它们。
接着我们重新启动lms和cms容器,通过这些容器来运行Ansible playbook,在启动时重新生成JSON文件。ansible_overrides.yml作为变量文件传递给Ansible,这样在那里声明的任何值都可以覆盖Open edX的默认值。
有了这个共享数据层,我们不必再担心容器会被重新分配到另一个主机上了,我们确信Docker能够找到正确的路径,并将所需要的卷挂载进容器中。
结 论
通过在IBM认知课堂平台的发展过程中,依靠学到的经验教训以及使用最新的技术,我们能够构建出快速、可靠和可扩展的解决方案,为认知课堂的学生和客户提供更好的学习体验。这篇文章中介绍了很多内容,希望能让您有所收获。Happy learning!
Rancher Labs由硅谷云计算泰斗、CloudStack之父梁胜创建,致力于打造创新的开源软件,帮助企业在生产环境中运行容器与Kubernetes。旗舰产品Rancher是一个开源的企业级Kubernetes平台,是业界首个且唯一可以管理所有云上、所有发行版、所有Kubernetes集群的平台。解决了生产环境中企业用户可能面临的基础设施不同的困境,改善Kubernetes原生UI易用性不佳以及学习曲线陡峭的问题,是企业落地Kubernetes的不二之选。
Rancher在全球已有8800万次下载和超过20000个生产节点部署,且在全球范围内已经拥有包含迪斯尼、IBM、乐高、美国农业部、SONY、中国平安、海航集团在内数百家大中型政府及企业客户。
公众号:RancherLabs
官 网:cnrancher.com
加它好友👆进技术群
Rancher 北上深招聘进行时