系统运维SIG致力于打造一个集主机管理、配置部署、监控报警、异常诊断、安全审计等一系列功能的自动化运维平台。
作者:毛文安(品文),系统运维SIG负责人;欢迎更多开发者加入系统运维 SIG:
网址:https://openanolis.cn/sig/sysom
邮件列表:sysom@lists.openanolis.cn
OpenAnolis 龙蜥社区(以下简称“龙蜥社区”)正式成立系统运维(System Operation&Maintenance, sysOM)SIG。阿里云和统信软件作为系统运维 SIG 的联合发起方,将携手龙蜥社区开发者一道,努力在自动化运维领域构建强大的生态体系,促进系统运维 SIG 的相关项目快速部署于广大的业务场景。
系统运维 SIG 目标是致力于打造一个集主机管理、配置部署、监控报警、异常诊断、安全审计等一系列功能的自动化运维平台。探索和实现创新的 sysAK 工具、高效的 LCC(Libbpf Compiler Collection)开发编译平台及 netinfo 网络抖动监控系统等,实现系统问题的快速上报、分析与解决,提升集群的全自动运维效率,与社区合作伙伴一道共同构建大规模集群运维生态链。什么是 sysAK
sysAK,全称是 system analyse kit(中文名青囊),基础来自于阿里百万服务器的多年运维经验,通过对这些经验进行抽象总结出典型场景,针对不同的运维需求提供了一系列工具,形成统一的产品进行服务。工具集包含了很多强大的底层系统运维能力,这些工具融合到了不同产品的运维平台中,实现高效的自动化运维。sysAK 诞生背景
在系统运维过程中,资源监控与利用、问题排查与解决是核心诉求,怎么样做到这些,需要一系列的操作系统底层能力与工具,这些能力与工具目前比较多的分散在不同的场景,怎么有效的整合去发挥他们的作用以及更方便的在系统上进行部署,缺少一个整体的方案,特别是在现代云计算中心中,集群大规模的机器通常包含不同的业务场景、系统及硬件平台,对这些能力与工具也有着非常高的要求。同时目前很多现有的工具对专业知识要求过高,对普通运维人员来说存在不低的门槛。因此 sysAK 诞生的目标是通过统一的跨平台工具集补齐系统运维现有能力,并高效易用的发挥作用。sysAK 技术特点
由于不断发展和变化的复杂业务环境,工具集也需要持续迭代,以期望覆盖更多的场景,因此希望通过社区合作,共同打造出这个跨平台的统一工具集。为此,sysAK 在技术实现上采用包容的框架:工具集支持多种语言格式,c、shell、python、go 等,方便不同语言习惯的开发者进行开发,快速集成;同时针对需要采集系统内核数据的情况,也同时兼容 Linux kernel module 和 eBPF 两种技术,对内核版本不做限制。当然除了功能外,sysAK 还首提自我资源控制的概念,避免工具运行过程中对系统的资源消耗和产生大的干扰。sysAK 核心能力
1、线上问题分析诊断:
2、资源监控:
3、系统介入:
一是问题分析诊断时,需要验证特定 case 或模拟注入才能真实确定问题进行修复;二是总有不可预期的问题会发生,对于业务来说很多问题发生后,怎样快速恢复和止损才是第一要务,对于不是整机异常的问题(系统级死锁、夯机),提供介入能力对系统进行恢复或故障隔离等。sysAK 规划
sysAK 在龙蜥社区开源,并采取 SIG 共建协作模式,每季度发布新版本更新,包含关键 bug 修复和新特性、新能力,并逐步将产品完整能力开源。目前已将代码放到了龙蜥社区进行了托管,先期开源的代码除包括基础开发平台、以及前面大家非常关注的内存泄漏工具(memleak,见 AK47 所向披靡一文)外,另外还包含了一些常用的工具:loadtask(系统负载分析)、runlatency(系统抖动分析)、sysmonitor(sys cpu异常自动数据抓取)、taskctl(进程异常注入)、tracesig(进程信号跟踪)、cpuirq(中断信息分析)。sysAK 里会逐步集成和开放很多其他强大的工具,下一阶段开放的重点工具包括:netinfo—网络状态实时监控与分析,精确分析网络问题ossre—沉淀阿里云运维知识库,自动分析快速识别已知问题appscan—进程性能瓶颈快速界定,业务调优利器,在多个客户现场调优中发挥了实际作用
sysconf—系统配置差异精准分析,辅助业务调优与分析变更导致的问题
https://codeup.openanolis.cn/codeup/sysAK风云再续:他抖任他抖,IO诊断在我手
netinfo:揭开网络抖动面纱的神器
coredump 瘦身风云
SIG是开放的,并争取让交付成果成为社区发行的一部分,由组内核心成员主导治理,可通过邮件列表和组内的成员进行交流。龙蜥社区SIG目前已超20个,包括硬件兼容性测试 SIG、商密软件栈、高性能存储技术 SIG、Java语言与虚拟机SIG、Cloud Kernel、OceanBase SIG等。
SIG网址:https://openanolis.cn/sig
加入微信群:添加社区助理-龙蜥社区小龙(微信:openanolis_assis),备注【龙蜥】拉你入群;加入钉钉群:扫描下方钉钉群二维码。欢迎开发者/用户加入系统运维SIG交流,共同推进龙蜥社区的发展,一起打造一个活跃的、健康的开源操作系统生态!
1.龙蜥操作系统将捐赠开放原子开源基金会
5.海尔智能加入龙蜥社区,推动软硬件应用生态繁荣发展