查看原文
其他

干货 | TSM 部署中的难点及常见运维故障诊断处理

上个星期,社区组织了“TSM部署难点及运维中故障诊断、处理探讨”交流活动,目的是通过社区会员的共同交流,更深入地理解TSM的部署及运维。活动中大家分享了几方面干货,现由社区专家聂奎甲总结几个重要的关注点,供大家参考应用。

聂奎甲,专注参与政府、电力、国土等行业的系统集成项目,精通计算机网络与安全及存储相关领域。


如何保证TSM服务器端与客户端的正常运行?


1,注意定期对tsm服务器和客户端的巡检,及时发现问题并处理。

2,定期检查tsm备份是否成功,如果备份失败查清原因并处理。

3,定期做好备份数据的恢复演练,保证tsm备份成功的数据是可用的。

4,配合自动化启停脚本完成TSM系统的监控。


如何做到TSM系统的自动运维?


1,可以考虑使用crontab或调度完成备份,配合脚本完成日常检查,比如邮件等功能,可以结合监控软件如bmc或zabbix完成物理硬件和应用可用性监控,当然可以配合商业产品完成漂亮的图表等查询功能。

2,把TSM的运维做好的话,每天的人工巡检是一部分工作之外,可以考虑投入一部分资金基于TSM平台进行一些开发,因为TSM有这样的接口,比如调度执行结果,尤其是TSM调用脚本执行的结果,日志在本地生成,可以考虑通过Agent采集的方式把日志收集上来;比如数据量监测,每天的数据量都维持在一个平稳的数值,如果某一天数据量上来了,应该关注一下。应该有一些工作在做这方面的定制化。


TSM系统部署流程是怎样的?需要做好哪些准备工作?


1,备份系统的整体规划,包括存储架构,主机的部署,备份方案的确定。

2,tsm系统的安装配置,初始化。

3,备份服务器的配置,策略域的设置,存储池等。

4,客户端的实施,安装tsm软件包并配置。

5,备份恢复测试。


TSM系统在首次部署时关注点有哪些?


1,你需要知道你要备份的是数据库还是操作系统,决定了你要选用的tsm模块

2,备份的数据量有多大,能否在规定的时间窗口内完成备份

3,为了在规定的时间窗口内完成备份,对磁带库有哪些要求

4,如果有同城备份选用什么传输线路?带宽具体多少能满足要求,这些都需要考虑

5,未来数据量增长的趋势,尽量建成备份系统后,满足未来1~3年的数据增长需求


TSM系统常见的故障有哪些,如何处理这些故障?


1,RC 106,一般是日志权限的问题,找到需要的日志,加上权限。

2,RC 12,介质mount不可用,一般是TSM调用带库的时候出现问题,查查驱动器和path,看看存储池的最大可用scratch数值;如果是磁盘,看看磁盘的文件系统权限。

3,第一次启动调度的时候,如果调度进程未启动,可能是因为password生成参数没设置好,或者没有手动的登录一下客户端。

4,ANS0102W,语言包的问题导致dsmc登录不了,将/opt/tivoli/tsm/client/lang/en_US目录内所有内容,拷贝到/opt/tivoli/tsm/client/ba/bin目录下试试。

5,ORA-19554,动态链接库的问题可能大些。

6,根据具体问题具体分析。


TSM备份失败后,如何查询失败的原因?


1,一般如果文件备份的话,Unix平台,调度执行失败之后在dsm.sys中你会指定调度日志,按照指定的日志,里面会记录哪些文件备份失败,因为什么失败,是路径不存在还是文件正在用。

2,如果是数据库备份的话,Oracle会有生成的rman日志,DB2和SQL可能没有那么详细的日志,你可以查询一下备份时间段的活动日志,活动日志中也会记录一些有用的信息和错误代码。通过因为调用了API,所以一般也会有API错误日志,比如dsierror.log,dsmerror.log这样的日志。

3,重点关注以下日志,数据库日志:api的log,tsmserver的log;文件日志:ba的log,tsmserver的log。


TSM错误日志的检查


查看一小时以前的所有日志:

query actlog

如查看昨天8点以后的所有日志

query actlog begindate=today-1 begintime=08:00:00

查看日志中有关nc_ora节点的相关信息,可以加上search参数

query actlog search=nc_ora

查看TSM服务器中的日志信息:

query actlog originator=server


相关阅读:

TSM 资料集

TSM 功能详述

为什么要选择TSM?大约就十八条理由


点击阅读原文可以进入社区TSM主题,还有更多文章、资料及相关问答。



长按二维码关注公众号AIX专家俱乐部

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存