高效运维

其他

云原生下的可观测数据采集实践,看这一篇就够了!

并行处理和发送的参数。服务端。日志服务具备自动扩容能力,但对于一些特殊场景,如日志积压,自动扩容可能有一些延迟,这时候需要手动调整。网络链路。发送端和接受端带宽是否足够;中间存在代理则要检查
2023年1月18日
其他

从 Kubectl Top 说起, 谈谈 Kubernetes 是如何进行资源监控的?

pr:https://github.com/kubernetes/dashboard/pull/3504链接:http://www.xuyasong.com/?p=1781GOPS
2023年1月16日
其他

超深度解析!一篇文章告诉你 Linux I/O 的那些事儿

的繁忙程度。这个指标比较玄学,没有直接的数据可以表示,一般是根据平均队列请求长度或者响应时间跟基准测试的结果进行对比来估算(在做基准测试时,还会分顺序/随机、读/写进行排列组合分别去测
2023年1月10日
其他

5个常见运维场景,居然用 Python 轻松解决了!

在运维领域有着广泛的应用,可以帮助运维工程师更高效地完成任务,并为他们提供更多的帮助和支持。来源:公众号“大侠之运维”。线上服务器运维故障率高?忙得焦头烂额?如何想办法改进?GOPS
2023年1月9日
其他

这些既有趣又实用的 Linux 运维命令,快快收藏!

nalinali,名字看起来就是中文”哪里”的,该工具主要功能就是识别IP,附加地理位置信息,安装之后,包含一下命令:nalinali-dignali-nslookupnali-traceroutenali-tracepathnali-pingnali是使用纯真数据库QQWry.dat,所以需要通过nali-update来更新数据库文件,该工具查询是本地进行,不进行联网查询,所以效率方面不错。使用感受一下它的方便:试下
2023年1月6日
其他

如何优雅进行灰度发布测试?中国工商银行是这样实践的

Ansible,赶紧收藏~“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2023年1月4日
其他

原来,K8s 中的服务是这样被发现的…

实时复制与实现“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年12月16日
其他

从 MySQL 到 ClickHouse 实时复制与实现

版本阶段,毕竟是两个异构生态的融合,仍然有不少的工作要做,同时也期待着社区用户的反馈,以加速迭代。代码获取由于还在验收阶段,我们只好把
2022年12月14日
其他

2021.7.13故障后,哔哩哔哩SRE稳定性保障揭秘

作者简介武安闯,2016年加入B站,深度参与B站微服务拆分、云原生改造、高可用建设、SRE转型和稳定性体系落地等项目。当前主要关注B站在线业务的SRE稳定性体系建设和推广,对SRE的实践有深入的探索与思考。说明:本文根据武安闯老师在
2022年12月13日
其他

史上最简明的 Tcpdump 入门指南,看这一篇就够了

个有用的“面试问题和解答”“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年12月6日
其他

Linux Shell 脚本的 10 个有用的“面试问题和解答”

的浩瀚无垠,使人总能每次都提交与众不同的内容。这些内容不仅对他们的职业生涯很有用,同时也让他们增长知识。在此,我们就尝试这么去做,至于能取得多大的成功,就由我们的读者朋友们来判断吧。在此,作为
2022年12月5日
其他

轻量化日志 Loki 全攻略,运维利器要收好~

团队最新的开源项目,是一个水平可扩展,高可用性,多租户的日志聚合系统。它的设计非常经济高效且易于操作,因为它不会为日志内容编制索引,而是为每个日志流编制一组标签,专门为
2022年12月2日
其他

从 Kubectl Top 说起, 谈谈 Kubernetes 是如何进行资源监控的?

使用,简明易上手“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年12月1日
其他

三大实例带你搞定 Prometheus API 使用,简明易上手

命令查找技巧,有可能是最详尽的一篇!“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年11月30日
其他

find 命令查找技巧,有可能是最详尽的一篇!

-ls这是找到所有只有rw———-权限的文件,而-600就表示只要是包括了rw的其他位任意的文件。mode加/前缀表示的是,指定的权限只要某一位复合条件就可以,其他位跟-一样忽略,就是说-perm
2022年11月29日
其他

天府健康通崩了;世界杯现“黑科技”,梅西来了也“没戏”;图灵奖得主、《人月神话》作者去世;谷歌裁员上万人 | 一周 IT 资讯

刘强东发布京东全员信,2000+位高管集体降薪;“四川天府健康通”出现异常,官方紧急修复;世界杯现“黑科技”,你能看懂梅西的“越位”吗?华人小哥周日加班,反被马斯克开除;《人月神话》作者、图灵奖得主
2022年11月25日
其他

记一次靠谱的 K8S 排错实战过程,硬核!

泄露异常,进行手动修复ceph集群。数据的不一致性(inconsistent)指对象的大小不正确、恢复结束后某副本出现了对象丢失的情况。数据的不一致性会导致清理失败(scrub
2022年11月24日
其他

数据质量有多重要?一篇文章告诉你数据治理的重要性

数据质量人人有责,这不仅仅只是一句口号,更是数据工作者的生命线。数据质量的好坏直接决定着数据价值高低。数据质量管理是指在数据创建、加工、使用和迁移等过程中,通过开展数据质量定义、过程控制、监测、问题分析和整改、评估与考核等一系列管理活动,提高数据质量以满足业务要求。可按照“谁创建、谁负责;谁加工、谁负责;谁提供、谁负责”的原则界定数据质量管理责任,由数据流转环节的各责任方对管辖范围内的数据质量负责。对数据质量规则优先采取系统程序的自动化控制措施,并尽可能前移管控点,从源头上控制数据质量。01
2022年11月23日
其他

一文带你搞懂 CDN 的技术原理

回源host为www.b.com,那么实际回源的是1.1.1.1对应的主机上的站点www.b.com协议回源指回源时使用的协议和客户端访问资源时的协议保持一致,即如果客户端使用
2022年11月22日
其他

11个步骤完美排查服务器是否被入侵

随着开源产品的越来越盛行,作为一个Linux运维工程师,能够清晰地鉴别异常机器是否已经被入侵了显得至关重要,个人结合自己的工作经历,整理了几种常见的机器被黑情况供参考:背景信息:以下情况是在CentOS
2022年11月21日
其他

一次“诡异”的 Ansible 密码问题排查,最后的“真相”竟是这样

ssh。横线这一处,报有个文件不存在,我对比了执行正常连接的机器(192.168.199.131),是不会报这个的,所以此处属于异常,需要排查。这些日志输出其实一团糟,可以粘贴到
2022年11月18日
其他

祝贺!国信证券乾坤集中运营平台技术运营团队荣获“证券行业运维领域风云团队”奖项

行业的盛大活动。本次活动旨在通过对IT行业从业者、产品、企业、服务商的横向评选及表彰,鼓励IT行业企业及IT人才持续进行技术创新和探索,引领IT行业技术发展。颁奖盛典上,GOITI
2022年11月17日
其他

荣耀时刻!2022年IT技术领导力颁奖盛典圆满举行

2022年IT技术领导力评选由高效运维社区、DevOps时代社区联合主办,旨在通过对IT行业企业持续开展技术创新、激励IT人才勇于开拓的有益探索,期望IT行业企业和从业人员能够不忘初心,砥砺前行,继续引领IT行业技术发展,再创佳绩。经过了近2个月的评选流程,我们终于迎来了本次IT技术领导力年度评选的荣耀时刻。因为疫情原因,部分嘉宾及企业代表未能亲临现场,由相关朋友及同事带领奖杯。首先颁发的是“2022年度风云团队”奖项(此处应该有掌声👏👏👏)高效运维社区发起人、GOPS全球运维大会发起人萧田国先生为获得者颁发奖杯:银行业
2022年11月4日
其他

中国工商银行如何解决测试数据难题

的监控神器,看完不信你不会,简单灵活!“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年10月24日
其他

基于 Prometheus 的监控神器,看完不信你不会,简单灵活!

根据预配置的规则对告警信息进行处理,实现业务逻辑,如分组、抑制、触发短信邮箱等当然具体的流程没那么简单,有很多细节需要注意,特别是触发告警时机,是个重点。告警的动态配置kube-prometheus
2022年10月20日
其他

看个新闻原来这么麻烦!一文趣谈 HTTP 协议

网络原理,彻底爱了~“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年10月19日
其他

关于 TCP/IP,运维必知必会的十个问题

网络原理,彻底爱了~“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年10月18日
其他

有了这篇 Docker 网络原理,彻底爱了~

docker网桥lo和eth0在我们的虚拟机启动的时候就会创建,但是docker0在我们安装了docker的时候就会创建。docker0用来和虚拟机之间通信。问题:Docker
2022年10月17日
其他

您的一票,至关重要 | 2022 IT技术领导力年度颁奖盛典网络票选正式开启!

技术领导力颁奖盛典(GOITI)网络票选正式开启线上投票时间:2022年10月15日-10月20日一触即发,此处应该有掌声!2022
2022年10月15日
其他

血泪教训!一次服务器被入侵排查全过程分享

命令,需要一小会,我们趁这个时间,先看看其他),因为之前朋友重启过服务器,发现服务器启动过一会才会负载较高。我认为入侵者应该放了一些定时任务和启动脚本里面。问题现象定时任务crond
2022年9月14日
其他

自定义你的 Kubernetes 资源:一文细说 CRD+Operator

Operator是大数据分布式系统在k8s场景一次经典的实践。原本Spark的作业提交是需要通过spark-submit命令,但有了Spark
2022年9月13日
其他

因违反数据保护条例,Meta接4亿天价罚单;贵州核酸检测系统崩溃:云上贵州回应;GitHub将关闭Trending|一周IT资讯

热榜;DB排行榜9月更新,Oracle惨不忍睹;Node.js之父喊话Oracle:交出JavaScript商标Meta因违反数据保护条例,接4亿欧元天价罚单2022年9月6日,知名图片分享社交应用
2022年9月9日
其他

运维思考:云原生时代下,自动化运维脚本真的没前途了吗?

远程数据同步工具详解“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年9月8日
其他

运维必备!Linux 远程数据同步工具详解

inotify文件监控工具提供的一套c的开发接口库函数,同时还提供了一系列的命令行工具,这些工具可以用来监控文件系统的事件inotify-tools是用c编写的,除了要求内核支持
2022年9月7日
其他

腾讯会议回应“崩了”;80岁作者再更新!Linux 三剑客之 Awk 霸榜;英伟达、AMD 断供中国 | 一周 IT 资讯

上海站,字节、小红书、ebay、中通等互联网一线运维经验,扫码解锁更多精彩~>近期好文:都说运维太难?一文说说故障自愈的那些事儿~提升研运效能!中国工商银行
2022年9月2日
其他

都说运维太难?一文说说故障自愈的那些事儿~

背景最近晚上23:00甚至是凌晨总收到告警通知:磁盘可用量低于20%,这个时候不得不爬起来处理告警。当然这里要提醒大家:对于小问题,运维也绝不要抱着侥幸的心理,因为只有痛过才知道。磁盘类告警只是我们诸多告警中的冰山一角,虽然我们有值班人员甚至是运维团队支撑,但是也不能因为这种小问题就分散注意力,这时我们就需要考虑如何通过自动化实现。针对这种情况,我们通常会想到以下几点:在告警机器上设置定时任务;编写脚本压缩日志或清理磁盘空间;这种方案虽然可行,但是试想下:如果我们管理的是上千台机器且目录结构混乱,那么我们面临的将是上千个脚本及定时任务,这个工作量是非常大的。运维累都是有原因的,此时就可以轮到故障自愈出场了。故障自愈如图所示,对于生产故障,运维标准的处理流程是收到告警、登录跳板机、故障处理、故障恢复,整个过程都是通过人工手动处理。而故障自愈则是接受监控平台的告警定位,匹配预设的故障处理流程,进而通过自动化手段实现故障的自动恢复。在认识故障自愈后,我们需要考虑的就是如何让运维管理的生产环境更广泛的接入故障自愈,而不是只针对单一的机器或某一类故障。因此在正式接入故障自愈前,我们还有很多的工作要做。1.前提为满足故障自愈通过自动化手段处理故障,我们必须提前制定一系列的流程规范:目录管理规范标准的目录结构,接入故障自愈后可以用一套自动化脚本管理所有文件资源;应用标准规范标准应用规范,接入故障自愈后可以用一套自动化脚本管理所有应用;监控告警规范标准的监控告警规范,通过告警通知,无论是运维团队或自愈平台,都能通过告警通知更快速的定位问题;标准的故障处理流程标准的故障处理流程,不仅可以帮助我们更快速的解决问题,而且可以帮助我们建立起运维团队的知识库;这些流程规范不仅是故障自愈,也是我们日常运维工作过程中需要持续关注的,这也意味着这些基础性的工作是多么的重要。2.监控平台监控平台作为整个故障自愈的源头,必须满足快速准确定位故障的要求,因此就需要在多个维度提供可靠的监控。硬件监控维度此类监控故障自愈一般无法接入,仅作为辅助手段帮我们及时发现问题;基础监控维度基础监控主要是对CPU、内存、磁盘等资源使用情况进行监控,接入故障自愈后可发送占用资源的top10进程及自定义的磁盘清理策略;应用监控维度应用监控主要是对应用状态进行监控,如健康检查、端口、其他自定义告警,接入故障自愈后可对应用进行重启;中间件维度中间件维度主要是对集群的健康状态进行监控,如
2022年9月1日
其他

提升研运效能!中国工商银行 DevOps 持续交付标准化实践之路

作者:中国工商银行软件开发中心一、背景及挑战持续交付旨在快速、高质量的交付业务价值,助力业务部门更快地响应市场需求,是提升企业研发效能、加快企业数字化转型的重要支撑。中国工商银行2009年开启构建部署自动化的工具建设之路,多年沉淀,从2018年开始基于已有工具探索和研究
2022年8月31日
其他

从 Kubectl Top 说起, 谈谈 Kubernetes 是如何进行资源监控的?

pr:https://github.com/kubernetes/dashboard/pull/3504链接:http://www.xuyasong.com/?p=1781还不过瘾?XOps
2022年8月30日
其他

如何使用 K8s 实现跨集群管理,这篇文章告诉你了!赶紧收藏

一、背景集群联邦(Federation)的目的是实现单一集群统一管理多个Kubernetes集群的机制,这些集群可能是跨地区(Region),也可能是在不同公有云供应商上,或者是公司内部自行建立的集群。一但集群进行联邦后,就可以利用
2022年8月29日
其他

第二曲线中的隐藏变量,中国电信“腾云记”

“新建系统100%上云,存量IT系统将在三年内全部上云。”2020年11月8日,时任中国电信党组副书记邵广禄(现任中国电信总经理)在中国电信天翼智能生态博览会天翼云论坛演讲时宣布,云计算服务将打造为中国电信的主业。彼时,在场的观众并没有意识到,这可能是中国电信“腾云”的开端。2020年,中国电信启动云改工程和数字化转型,成为国内第一个推进“云网融合”战略的电信运营商,并推动全集团IT系统100%上云。如今,两年过去,5月17日世界电信日,中国电信宣布,提前完成“云端电信”IT系统的重塑,成为国内第一家100%使用自研数据库、100%IT系统上云的央企,创下全球电信运营商IT系统向云端“迁徙”的最快纪录。与此同时,中国电信的业务平台(OT)上云已马不停蹄地展开,预计在三年内完成。这是一条在荒野中踏着荆棘前行的开拓之路。6:3000,中国电信云网运营部平台云化推进处处长陈靖翔第一次接到任务时,在纸上写下了两个数字,6代表平台云化推进处的员工数量,3000代表要上云的IT系统数量。简单计算便可知,平均一个人三年要负责组织约500套系统上云。这是一条斩断所有“旧连接”的云端重塑之路。十亿用户、百亿查询、千亿话单背后,是固定电话到云网融合的数十年网络演进,是典型业务要穿透数十个系统的指令,是设备间错综复杂、盘根错节的物理耦合。如今,陈靖翔他们要在云端无缝重建一片更加开放、共享、敏捷的“IT土壤”,却不能在新旧世界的转换时,出一丝差错。2020年7月,站在起点,陈靖翔抬眼望去,终点似遥不可及。2022年7月,站在终点,陈靖翔回望来路,原来已跨越千山万水。01
2022年8月26日
其他

想要 Kubernetes 资源编排提升一个段位,这篇文章非看不可~

磁盘空间不够用?教你一招速速排查“高效运维”公众号诚邀广大技术人员投稿投稿邮箱:jiachen@greatops.net,或添加联系人微信:greatops1118。点个“在看”,一年不宕机
2022年8月24日
其他

Linux 磁盘空间不够用?教你一招速速排查

查看,总共加起来差不多10G,没有隐藏目录,那空间被谁吃了?很明显,有空间被已删除文件占用,文件删除了,但是资源没释放之前介绍过一个很好用的命令:lsof,我们可以通过以下命令去查看lsof
2022年8月19日
其他

这篇监控系统的建设思路,让你彻底找出性能瓶颈

一、起始一个好的监控系统,不仅可以实时暴露系统的各种问题,更可以根据这些监控到的状态,自动分析和定位大致的瓶颈来源,从而更精确地把问题汇报给相关团队处理。要做好监控,最核心的就是全面的、可量化的指标,这包括系统和应用两个方面。从系统来说,监控系统要涵盖系统的整体资源使用情况,比如我们前面讲过的
2022年8月18日
其他

吃透 ElasticSearch 这几个知识点后,成为操作高手!

求并集)之间可以并行,效率更好。但是,位图有个很明显的缺点,不管业务中实际的元素基数有多少,它占用的内存空间都恒定不变。也就是说不适用于稀疏存储。业内对于稀疏位图也有很多成熟的压缩方案,lucene
2022年8月17日
其他

高效协同、持续交付,中国工商银行企业级 DevOps 工具链建设之路

工具体系建设,首先要适应当前流程和用户工作习惯,然后同步进行工具改进和流程改进,工具体系不能脱离技术和管理现状,要随着技术和管理的优化不断改进。因此打造适合自身的
2022年6月21日
其他

在线人数突破千万,B站活动保障的高效 SRE 之路!

✦✦作者简介武安闯哔哩哔哩在线业务SRE负责人2016年加入B站,深度参与B站微服务拆分、云原生改造、高可用建设、SRE转型和稳定性体系落地等项目。当前主要关注B站在线业务的SRE稳定性体系建设和推广,对SRE的实践有深入的探索与思考。01
2022年6月20日
其他

从青铜到王者,一篇文章讲清楚 Kubernetes 网络策略!

https://docs.projectcalico.org/getting-started/kubernetes/self-managed-onprem/onpremiseskubectl
2022年6月16日
其他

中国信通院云大所牛晓玲:XOps浪潮下,企业IT提质增效的新思考

Xops体系XOps体系到底是什么?这由多方面因素来驱动:从市场方面来说,各大企业的产品迭代越来越频繁,用户也提出了更高的要求;从技术角度来说,容器、微服务、低代码、无代码、RPA,包括
2022年6月15日
其他

运维!你对数据要有敬畏之心~

简述“对数据要有敬畏之心”这个主题是同事在一个早会分享时提出的,却直接引起我心中的共鸣。前几年各种删库跑路事件、Facebook宕机事件仍不绝于耳,虽然大家将“删库跑路”当作一个调侃与谈资,但上升到“对数据要有敬畏之心”的高度,作为运维我们就要居安思危,防患于未然。数据的定义从运维的角度,数据不是独立存在的,它存在于日常运维过程中的各个环节,如例行维护、变更、故障处理等。因此如果我们只考虑数据本身则意义不大,要从数据存在的各个环节去分析。在此我们将其大体概括为:数据备份文件系统+例行维护数据库大数据业务版本发布需求变更数据备份从数据安全的角度出发,我们最先想到的肯定是数据备份,下面我们来看下数据备份的几个关键点。首先,根据备份空间和从备份恢复的速度允许的情况下,我们可以将数据备份分为本地备份和异地备份(不考虑多机房容灾)。其次,无论是何种备份方式,我们都需要考虑备份保存周期,因此无规则限制的归档会带来存储成本的不断升高。最后,针对数据丢失或误删等各种场景,我们需要确定就是备份哪些内容。对此我们总结需要备份的内容如下:系统级配置文件内核参数、hosts解析、crontab计划任务、环境变量、防火墙等应用级配置文件Nginx、Java应用、中间件、DNS等日志级数据应用日志、Nginx
2022年6月13日