分享TSM、NBU、Legato等备份系统运维独门绝技
来自社区交流活动“TSM、NBU、Legato等备份系统运维难点与故障处理”,活动正在进行中,欢迎来分享你的独门绝技~
@聂奎甲 长春长信华天项目经理
我觉得常见的故障比如:
RC 106,一般是日志权限的问题,找到需要的日志,加上权限。
RC 12,介质mount不可用,一般是TSM调用带库的时候出现问题,查查驱动器和path,看看存储池的最大可用scratch数值;如果是磁盘,看看磁盘的文件系统权限。
第一次启动调度的时候,如果调度进程未启动,可能是因为password生成参数没设置好,或者没有手动的登录一下客户端。
ANS0102W,语言包的问题导致dsmc登录不了,将/opt/tivoli/tsm/client/lang/en_US目录内所有内容,拷贝到/opt/tivoli/tsm/client/ba/bin目录下试试。
ORA-19554,动态链接库的问题可能大些。
挺多的,遇到就记下来,可能就好了。
------
tsm的所有错误信息都保存在活动日志里,但活动日志不仅信保存错误信息,也会保存系统中所有行为的相关信息:
查看一小时以前的所有日志:
query actlog
如查看昨天8点以后的所有日志:
query actlog begindate=today-1 begintime=08:00:00
查看日志中有关nc_ora节点的相关信息,可以加上search参数:
query actlog search=nc_ora
查看TSM服务器中的日志信息:
query actlog originator=server
大家在调试和运维备份软件时有哪些技巧可以来分享一下,大家交流学习。
@pingpang1018 启明信息系统工程师
个人觉得分析备份问题首先是分为Server端和client端,如果日志直观显示问题所在,则直接处理问题即可;
如果一个备份失败了,但是日志模糊不清,无法具体定位问题时,首先是判断服务器是否可用,如果当前还有其他备份可以执行,基本可以判断服务器可用性;
接下来需要判断存储介质可用性,如果当前的数据备份存储池仍有其他备份作业写入成功,那么存储介质可用;
接下来具体分析该客户端,如果是数据库备份,则可以尝试在该节点发起一个文件备份实施是否链路可用,介质可用,通信正常;
如果是一个Lanfree的节点,则先注销lanfree发起备份,判断是否是由于LANFREE的path问题,引起的故障。
常见的错误都是累计出来的,比如oracle备份首次出现7011 RC106,那么改一下日志权限,基本能成。
诚邀大家前往交流分享,点击阅读原文即可
▼▼▼