查看原文
其他

最强大脑+断案利器,看福尔摩斯·K携手KFS对战零停机物理迁移

人大金仓 金仓数据库
2024-11-11
C市X局某办公室里烟气缭绕上升,叹气声此起彼伏。只见众人个个愁眉苦脸,似乎遇到了不小的麻烦。“还是请求夏洛克·福尔摩斯·K的支援吧!“突然一个声音打破了沉寂。“他们到底遇到了什么难事?”原来X局因业务调整,需要对所有服务器进行机房物理迁移。X局的XX系统是核心业务系统,机房搬迁关系到上万用户的使用,要求搬迁过程中不能中断业务服务。X局XX系统采用生产中心和本地灾备中心双向同步架构,架构本身具有较高的复杂度,在此基础上实现业务零停机的机房物理迁移无异于两副重担一肩挑—难上加难X局项目经理紧急请求夏洛克·福尔摩斯·K支援。夏洛克·福尔摩斯·K是数据届大名鼎鼎的大侦探,经历过多次重大数据库项目抢险保障工作,有了他的支持让不可能成为可能。

项目背景


XX局项目是同城灾备应用场景,采用生产中心和本地灾备中心双向同步架构,利用KFS毫秒级数据同步优势以及双向同步+防回环技术。目前已经稳定运行三百多天。



搬迁零停机,挑战不可能!

夏洛克·福尔摩斯·K赶赴项目所在地,现场跟用户、集成商和项目业务人员讨论机房物理迁移的方案。会议紧锣密鼓地展开,空气中弥漫着紧张的气息。X局机房搬迁迫在眉睫,当前第一要务是保证业务在搬迁中不被中断。用户提出了两个需求:同步业务需求1)生产中心和灾备中心进行物理机房迁移涉及断电+断网,此过程中需要保证应用的零停机或者分钟级停机2)物理迁移完成后,应用要切换回生产中心并且需要保证生产中心与本地灾备中心数据库数据的一致性与完整性。本次机房搬迁事宜让用户一筹莫展,按照以往的项目方案进行机房物理搬迁,零停机迁移几乎不可能。此时,只见夏洛克·福尔摩斯·K泰然自若,沉吟片刻,然后将KFS迁移解决方案娓娓道来:
“只需5步就可以实现业务零停机物理迁移。”机房物理迁移且应用不停并不是挑战,只需要分批次进行物理迁移,保证在迁移过程中有一个中心在提供服务即可。最终机房物理迁移方案的步骤如下:

针对给出的迁移方案,用户又提出了一个疑问:

整个迁移过程中KFS是有停机操作的,那么如何保证重新启动后继续从上一次的位置进行同步,保障数据不丢失的?为了让用户更直观的理解技术原理,夏洛克·福尔摩斯·K现场用笔描绘着原理图,耐心地解释到:KFS的同步原理可以抽象为由数据解析、数据传输、数据入库这三个操作节点组成的流水线,上一个节点的输出作为下一个节点的输入。在源端数据库会持续的产生增量数据流,每个节点会对数据流中的数据进行处理,如果每个节点处理数据有重复或者是有丢失,就会导致下一个操作状态异常或者最终的数据有丢失重复等问题,因此每个节点会记录当前已经处理到了哪个位置,当出现异常恢复时便于从记录的位置开始处理数据,避免数据的丢失和重复。这就是KFS的断点续传技术。
有了断点续传技术的保障,只需要方案中的5个步骤即可完成应用不停机的物理迁移。X局用户了解迁移方案背后的原理后如释重负,对金仓KFS的灵活性表示高度认可。

用户同意此方案后,夏洛克·福尔摩斯·K谨慎地核对方案中的每一个细节,充分准备等待周末正式搬迁。

意外突发,背水一战迎接新挑战

周末如期而至,机房搬迁正式开始。万事俱备,夏洛克·福尔摩斯·K开始按照方案一步一步实施。

刚开始一切进展的都比较顺利,成功完成了容灾中心服务器的迁移以及相关业务的恢复,也在不停应用服务的条件下完成了生产中心服务器的机房搬迁。众人紧张的情绪慢慢释放……

但就在此时还是发生了意外!第四步,恢复生产中心服务器时,服务启动却出现异常。

搬迁过程中触发了操作系统的高可用恢复机制导致生产中心数据库集群的数据文件损坏,无法正常恢复。顿时,现场一片混乱,在场人员都不知所措。“得赶紧恢复备份数据!” 夏洛克·福尔摩斯·K当机立断,立即着手恢复生产中心的数据。并安抚用户紧张的情绪:“别慌,金仓KFS有各种成熟的解决方案,专门针对服务器环境故障引起的一系列问题。“ 众人在夏洛克·福尔摩斯·K的安慰下渐渐平复心情。夏洛克·福尔摩斯·K全神贯注修复问题,最终把数据还原到了生产中心停机搬迁前的8个小时。备份恢复成功了,现场人员都吁了一口气。虽然生产中心的数据成功备份恢复,但又出现了一个新的问题。还原后生产中心数据库丢失了搬迁前8个小时的数据,如果继续操作KFS同步服务会重复解析数据导致同步异常片刻宁静后,新的挑战来临了……夏洛克·福尔摩斯·K面临的新挑战主要有两个:1)在满足零停机的要求下恢复丢失的数据,保证主库与备库数据的一致性2)在满足零停机的要求下恢复KFS双向同步服务

挽狂澜,挑战成功

夏洛克·福尔摩斯·K决定先全面分析现场情况,权衡利弊后再给出最佳方案。丢了哪些数据?“夏洛克·福尔摩斯·K冷静分析现在的情况后,决定使用KFS数据校验技术先确认有哪些表数据存在丢失。当前灾备中心在提供应用服务,灾备中心数据库的数据也是最全的,因此可以通过KFS的数据校验功能确认哪些表存在数据丢失。争分夺秒,夏洛克·福尔摩斯·K立刻使用KFS管理控制平台对生产中心集群进行数据校验,定位丢失的数据。

“如何在最短的时间恢复数据以及KFS同步服务?

仔细思量后,夏洛克·福尔摩斯·K决定使用数据库自带的备份还原功能,将灾备中心数据库的数据进行备份,然后还原至生产中心的数据库,再利用KFS的断点续传技术,重新设定断点位置来恢复同步服务。“只需4步就能修复丢失的数据和恢复同步服务”
通过4个操作步骤就能很快恢复了生产中心丢失的数据以及KFS同步服务,并将应用接回生产中心。整个过程步骤清晰明了,操作简单。最终在大家共同的努力下,成功恢复了生产中心数据库丢失的数据,修复了KFS同步服务。按时完成了本次生产中心和容灾中心的机房物理迁移。金仓攻克了又一难关,迎来胜利的曙光!
结语金仓KFS让“零停机”照进现实

金仓KingbaseFlySync(简称KFS)广泛应用于同城/异地灾备、数据库“零”停机平滑升级替换。核心技术如下:

双向同步技术全过程自动适配灾备切换场景,操作简单,无需人工干预,灾备演练时用户只需切换应用,无需人工操作。

数据防回环技术

自动识别区分KFS同步数据和应用数据,对数据进行过滤避免数据回环,充分保证数据的一致性和唯一性。

数据校验技术

KFSMC(KFS 管理控制平台)提供多种数据校验方式:精简校验、详细校验(全量、条数抽样、条件筛选)、MD5校验来满足不同的校验需求以及不同数据量的差异数据的一致性确认。通过数据校验功能可以识别源端和目标端数据库数据的差异情况。

断点续传技术

KFS同步服务会记录同步过程中的断点信息,源端服务会记录解析日志的位置,目标端服务会记录入库的断点位置,故障恢复后,KFS同步服务会自动根据根据断点信息进行解析和入库操作。

金仓KFS拥有硬核的技术和成熟的方案帮助用户解决不同业务场景下的零停机需求,充分保证用户应用的连续性以及稳定性,零停机照进现实。

继续滑动看下一个
金仓数据库
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存