其他
拒做背锅侠:逃离系统故障的 10 个心得
↓推荐关注↓
一、变更要能回滚、先在同样的环境测试过
佛说:每次创伤、都是一次成熟,这便是运维人员的真实写照。
二、对破坏性的操作谨慎小心
truncate table_name
、delete table_name
、drop table_name
,这些语句执行起来轻松简单也惬意极了、但记住!即便数据可被回滚、代价也是非常大!对 Linux 而言:rm -r
所有当前及其子目录的所有数据都将被删除。经历过这种故障的人、大多会给 rm 上个别名。
alias rm='rm -i'
同理,cp 和 mv 也可以有同样的选项:
alias cp='cp -i'
alias mv='mv -i'
三、设置好命令提示
[plain] view plaincopy
idle> set sqlprompt 'RAC-node1-primary@10g>>'
RAC-node1-primary@10g>>
glogin.sql
里面设置。对 PS1 更多理解、请见:man PS1
四、备份并验证备份的有效性
五、对生产环境永保敬畏之心
于 Oracle 而言、你可以跑一个 RDA 巡检 DB 的健康状况;
于 Linux 而言、是否有 password aging、隔离外网等。
六、交接和休假最容易出故障、变更请谨慎
七、搭建报警、及时获取出错信息;搭建性能监控、预测趋势
运维人员赖于生存的工具就是报警和监控。
八、自动却换需谨慎
九、仔细一点,偏执一点,检查、检查,再检查
有这么一个人:
他在做一个变更的时候,会先提前一两周发送邮件并电话手机通知相关人;
在测试机上写好脚本,召集大家 review 操作步骤和脚本;
测试完成以后拷贝到生产环境;
录对应机器,“打开,关闭,打开,关闭”该脚本;
跟相关人员再次确认执行的操作、顺序、时间点,可能的影响和回滚是否都准备好了;
行前还要退出这个机器,然后再登录进去,“打开,关闭”脚本;
后才在后台运行脚本,同时在另外一个窗口登录着,随时ps和查看结果输出。
期间姿势端正,呼吸急促而均匀,眼神凝重。操作的人不觉得累,倒是一边学习的人很累。
十、简单即是美
来源:https://blog.csdn.net/dba_waterbin/article/details/8745999
- EOF -
看完本文有收获?请分享给更多人
推荐关注「Linux 爱好者」,提升Linux技能
点赞和在看就是最大的支持❤️