P740小型机日常维护手册
某银行P740小型机日常维护手册,由社区会员原创分享
目 录
一. 设备环境介绍
二. 系统操作
三. 巡检操作
四. 常用操作
五. 日常事务
六. 常用命令
一. 设备环境介绍
设备型号:
IBM P740 8205-E6C
设备功能介绍:
本项目为:全省操作风险管理系统工程,
小型机主要承担授权数据库与事后监督数据库稳定运行与备份
的任务。
其中两台小型机采用互为备份方式:
设备拓扑简介:
设备连接介绍:
每个地市数据中心采用 2 台 IBM Power 740 小型机服务器运行数据库系统,分别运行 HACMP 软件,配置成双机互备系统,保证系统的高可靠性。
2 台 IBM Power 740 分别通过 2 根光纤连接到 2 台存储光纤交换机,
2 台磁盘阵列通过 2 根光纤连接到 2 台存储光纤交换机,如此连接即保证了可靠性,又提高了数据访问的效率。
设备磁盘管控:
小型机 1 主机名为:tyxxdb1, (HMC 管理 IP 为 1.1.1.5)
自身拥有 IP 10.0.31.1, 默认提供数据库名为 TYSQDB 的服务
服务 IP 为 10.0.31.3 默认挂载磁盘/tysqdbdata 和 /rmansq
小型机 2 主机名为:tyxxdb2, (HMC 管理 IP 为 1.1.1.6)
自身拥有 IP 10.0.31.2, 默认提供数据库名为 TYSQDB 的服务
服务 IP 为 10.0.31.4 默认挂载磁盘/tyhddbdata 和 /rmanhd
挂载的磁盘/tysqdbdata 分配空间为: 750G
/rmansq 分配空间为: 875G
挂载的磁盘/tyhddbdata 分配空间为: 1150G
/rmanhd 分配空间为: 1275G
二. 系统操作
系统开关机,检查硬件有无故障。
2.1 开机登录
在开机之前,先检查电源是否插好;然后,按下前面板上白色电源开关后,主机会进入硬件自检和引导阶段;此时,前面板上的液晶会有代码跳动,每一个代码表示自检或引导的不同阶段,最后在引导结束时,前面板液晶上的代码消失,彩显或终端上有显示,进入系统初始化和登录提示,当登陆界面出现时,输入用户名 root 及口令(root) ,以进入系统。
报修:如果主机停在某一代码上,引导不下去(大于半小时),说明系统可能有故障,请与我们联系。
IBM 报修方式:致电 800-810-1818 / 5858,报本设备的序列号,并把代码一起报 IBM 公司。
2.2 asm 方式开机
asm 登录方法:
通过管理网络,web 登录到 https://169.254.2.147 和 https://169.254.3.147
用户名/密码: admin/admin
登录 asm 后, 依次打开 Power/Restart Control, Power on/off System, 此界面会显示当前电源状况: on 或 off, 按下方 Save setting and power on 或 off, 使小型机开机或关机。
2.3 查看报错
依次找到 System Service Aids , Errors/Event Logs
可检查是否有报错日志
2.4 登录 AIX 系统关机
telnet 到 10.0.31.1/2 , 输入 smitty clstop 命令,然后连续回车两次以执行停止HACMP 的进程。
使用 shutdown –F 命令完成关机操作
使用 shutdown –Fr 命令完成重启操作
2.5 启动服务
telnet 到 10.0.31.1/2 , 输入 smitty clstart 命令,然后连续回车两次以执行启动HACMP 的进程。
使用 ps –ef|grep ora 显示是否启动数据库进程
排查 HA 服务是否正常,请参照如下:巡检操作
三. 巡检操作
步骤 1:
通过 telnet 或者直连显示器登录到 10.0.31.1 和 10.0.31.2
用命令 smitty hacmp
选择第四项 Problem Determination Tools,
再进入到第二项 View Current State, 查看当前 HACMP 群集的状态是否正常;
或者使用命令/usr/sbin/cluster/clstat 查看群集状态;按 q 退出
Cluster Substate 字段显示为: stable, 表示群集状态稳定;
群集状态:
步骤 2:
用命令 netstat –in 查看服务 IP: 10.0.31.3 和 10.0.31.4 是否能在主机上显示出来。
小型机 1 的网卡信息
是否含有 IP 10.0.31.3
小型机 2 的网卡信息
是否含有 IP 10.0.31.4
步骤 3:
用命令 df –g 查看服务 IP 对应的文件系统是否已挂载
小型机 1 的磁盘挂载信息是否包含 /rmansq /tysqdbdata
小型机 2 的磁盘挂载信息是否包含 /rmansq /tysqdbdata
四. 常用操作
HACMP 的操作
启动:smitty clstart
停止:smitty clstop
启动/停止过程可以查看/tmp/hacmp.out 文件:
# tail –f /tmp/hacmp.out
检查 Cluster 是否运行正常
Cluster 进程是否运行:#lssrc –g cluster,至少两个进程,且为 active。
IP 地址是否获取:#netstat –in,看 srv ip 是否存在。
VG 是否 varyon:#lsvg –o
文件系统是否 mount:#mount
应用进程是否启动:#ps –ef | grep ora
HACMP 相关日志
/usr/es/adm/cluster.log;
以事件为单位的纪录
/tmp/hacmp.out;
详细记录
/usr/sbin/cluster/history/cluster.mmdd;
历史纪录
五. 日常事务
系统管理员应经常性地检查一些项目,以保证系统可靠和有效地运行。通常建议检查以下项目:
(1)系统运行性能:了解系统当前运行性能是否在正常范围内。
(2)系统参数和环境变量:是否有参数或变量影响系统使用、系统性能或安全等。
(3)系统可靠性设定:如 rootvg 是否镜像以及镜像是否有效,dump 设置是否有效等。
5.1 检查系统运行性能
目的:了解系统当前运行性能评估。
原理:通常从 CPU、内存、IO、网络四个方面依序来评价系统运行性能。
要点:
(1)AIX 的性能好并不代表数据库性能或业务应用系统性能好。
(2)性能的评价应该是个持继的过程,应从多个不同时段去评估。
(3) 参数调整应慎之又慎。 一次不要调多组参数。 调整要有记录并留有观察期。
5.1.1 综合性能查看
命令 | 功用 | 说明: 以下为通常的评价指标 |
#w | 查看平均负载 load average | 0-3:轻 3-7:中等 >7 重 |
#topas | 综合显示多项指标:如 CPU、内存、IO、进程等 | 按“h”键得到各指标项解释 |
#vmstat 1 10 | 显示 CPU、内存等运行指标,间隔 1 秒持续 10 次观察 | us+sy > 80 :CPU 负载重 wa >35 : IO 负载重 pi/po 持续非 0 :内存不足 |
#lsps -s 或 #lsps -a | 查看虚拟交换区使用情况 | 平均使用率<70%: 比较安全 |
举例:vmstat
5.1.2 分项查看
此处罗列的命令都是常用的观察系统性能指标或做相关调整的命令。命令的准确理解涉及 AIX 操作系统的全面知识。此处仅罗列供参考,详细用法请用man 查看。
举例:swmon
5.1.3 性能调整
CPU | Memory | Disk | Network |
nice, renice time setpri schedo | vmo, rmss chps | ioo, chlv, chdev reorgvg lvmo | no, nfso, ifconfig chdev |
举例:vmo
#vmo -x
列出由 vmo 命令管理的所有可调参数的当前值、重新引导值、范围、单元、类型和相关性。
#vmo -o minfree=1000 -o maxfree=1008
将系统实内存的最小空闲页面数保持为1000,调整阀值为1008。
系统中如果实内存空闲页面数小于最小设定值, 将会容易引发内存"颠簸"现象, 甚至进程被异程中止或系统死机等。
5.2 检查 AIX 系统运行参数、环境变量
目的:检查重要环境变量与参数。
原理:环境变量和参数会直接影响系统进程或系统性能。
要点:环境变量或参数值通常视系统配置和应用系统要求来确定合理值。
5.2.1 SHELL 环境与环境变量
常用用法 | 功用 | 说明 |
#env | 查看当前环境变量 | 1)关注 TERM、TZ、PS1、PATH、HOME、SHELL 等环境变量; 2)=号前后不能有空格 |
#variable=valume | 设置环境变量 | |
#export variable=valume | 设置环境变量 ,并将该环境变量在子进程中得到继承 |
举例:
#export TERM=vt100
为当前使用的终端设置一个终端类型,终端类型设置不当时显示屏会混乱。
说明:UNIX 仿真终端通常设 vt100 或 vt200,DOS 下的 telnet 终端设成 ansi。
#PS1="Ready>"
设置用户提示符改为 Ready>。
说明:PS1 用户登录后的正常提示符;PS2 是续行提示符,即命令一行写不完时要在第二行显示一个提示符表示这是继行;PS3 是 root 身份提示符,即用户 su 到 root 身份后的提示符。
AIX 系统中时间设置包括时区、夏时制、日期和时间,要特别关注时区和夏时制问题,如果设置不正确,将会引起系统时间按错误的时区规则而改变。
#echo $TZ
显示系统当前时区设置。echo 命令用于显示变量值。
在大陆地区,该命令的正确结果通常为 BEIST-8,即中华人民共和国时区(东 8 区无夏时制) 。
有时输出结果类似于:BEIST-8BEIDT(东 8 区有夏时制,DT 表示有夏时制)或 CST6DT 等。这样的时区设置通常是错误的,与中国大陆实际情况不符。
要修改时区:
#chtz BEIST-8 :修改后一定要重启主机才能生效。
5.2.2 几个主要的系统运行参数设定
每个参数组用相关 smit 快速菜单进入后,可能会再有子菜单或选项。
举例:AIO
5.3 检查 rootvg 设置
5.3.1 检查 rootvg 镜像
目的:确保 rootvg 是有效镜像保护的,防止因硬盘故障而引起系统宕机。
原理:AIX 操作系统安装在 rootvg 中。通常将 rootvg 中的重要 lv 做成分盘镜像, 也就是每份镜像的 lv 数据都同时分布在两个硬盘上。这样其中一个硬盘故障时,AIX 操作系统仍能工作。
要点: 要经常检查 rootvg 的镜像是否有效?两个盘是否都设为可启动?
命令:#lsvg -l rootvg
举例:
虽然 rootvg 有做 lv 镜像,但还要进一步确保两份数据都可以用于启动 AIX
举例:
5.3.2 检查 DUMP 设置
目的:检查 DUMP 设置是否符合要求。
原理:AIX 系统崩溃(crash)发生时,会将当时的内存内容 dump 到 dumpdevice。系统安装时自动创建两个 dump device:/dev/dumplv(优先用)和/dev/sysdumpnull(次之) 。Dump 发生之后,通常由人工重启 AIX。AIX 启动过程中, 再将 dump device 中的内容拷贝到/var/adm/ras 目录下, 命名为 vmcore.x文件,供分析之用。vmcore.x 文件通常都是很大的。
要点:
1)dump device(lv)不要设置 lv copy,即该 lv 的 LPs:PPs=1。
2)系统每天自动检查/var 剩余空间,如不足以存放可能的 DUMP 内容,则会在错误日志中给出警示信息。
命令:
六. 常用命令
6.1 系统方面
检查系统状态:
系统整体: prtconf
文件系统: df –k,df -g
设备: lsdev –C 获取设备名称、状态、位置和描述。
查看硬盘: lsdev –Cc disk
查看适配卡: lsdev –Cc adapter
处理器个数: lsdev –C|grep proc
系统配置: lscfg –vp 获取所有已配置硬件设备的详细信息。
查看硬盘信息: lscfg –vl hdiskx x 表示数字
查看网卡信息: lscfg –vl entx x 表示数字
查看硬件属性: lsattr –El 获取已配置设备的属性信息。
查看硬盘属性: lsattr –El hdiskx x 表示数字
查看网卡属性: lsattr –El entx x 表示数字
内存大小: lsattr –El mem0
磁盘 lspv
交换分区 lsps –a
软件 lslpp –l 文件包名字
用户 whoami
关机命令:
–shutdown
一分钟后关机
–shutdown +2
二分钟后关机
–shutdown –Fr
关机重启(-r)
关机命令调用/etc/rc.shutdown 关闭程序
可以在这个文件里加上你自己的脚本
6.2 其它基本命令
mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录
ls 显示目录中的内容(文件名)
#ls –a 列出当前目录中的所有文件
#ls –l 显示文件的详细信息
ps / kill 显示后台进程的有关信息或杀死后台进程
#kill -9 253432
find 在一个/多个目录中查找符合条件的文件
#find –name ‘t*’ -print
head/tail 显示文件头/尾声的内容
#tail +200 filename
who/finger 列出系统注册/已登录的用户
#who am I
#finger oracle
6.3 显示文件和目录的空间占用量
du /home |sort –rn
6.4 安全性记录文件
●/var/adm/sulog
记录每次 su 命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。
●/var/adm/wtmp 和/etc/utmp
记录用户的成功登录。使用 who 命令查看。
●/etc/security/failedlogin
记录所有不成功的登录尝试。 如果用户名不存在, 记录为 UNKNOWN 项目。使用 who 命令查看。
安全性相关文件
●包含用户属性和访问控制的文件
●/etc/passwd 合法用户(无口令内容)
●/etc/group 合法用户组
●/etc/security/passwd 含有加密形式的用户口令
●/etc/security/user 用户属性,口令限制
●/etc/security/limits 对用户的限制
●/etc/security/environ 用户环境设定
●/etc/security/login.cfg 登录设置
●/etc/security/group 用户组属性
6.5 用户环境的合法性检查和修正
●检查/etc/passwd/与/etc/security/passwd 的一致性,以及 /etc/security/login.cfg 和/etc/security/user,同时修正错误:
pwdck -y ALL
●检查//etc/security/user、 /etc/security/limits、 /etc/security/passwd,
以及是否每个组在/etc/group 和/etc/security/group 中都有对应条目, 并修正错误:
usrck -y ALL
●检查/etc/group、 /etc/security/group、 /etc/passwd 和/etc/security/user 中关于用户组的内容的一致性,并修正错误:
grpck -y ALL
6.6 错误日志查看
• 所有 AIX 错误都记录在一个记录文件中/var/adm/ras/errlog
• 显示错误
–errpt [-a] -a 为详细显示
可以输出到文件或用 more、pg 察看
•清空错误记录信息
–errclear 0
建立/修改口令
通过 errpt 产生错误报告
•显示所有的错误报告
–# errpt
•只报告硬件错误
–# errpt -d -H
•描述 ID 为 F49E2A17 的错误报告
–# errpt -a -j F49E2A17
例:
# errpt
•标识‘C’ :错误归类
–H:硬件
–S:软件
–O:操作错误
–U:不能确定
•标识‘T’ :错误类型
–PERM(并且 C 为 H):显示系统遇到硬件问题并且无法自动修复
–PERD(并且 C 为 H):系统硬件变为不可用并引起一系列错误系统
–PERM(并且 C 为 S):显示系统遇到软件问题并且无法自动修复
–TEMP(并且 C 为 S):显示系统遇到软件问题并且已经自动修复
•root 用户通过手工命令 errclear 直接清除错误日志
–# errclear 10
•清除 10 天以前的所有日志
–# errclear -d H 0
•清除所有硬件的错误
–# errclear -N disk 0
•删除所有资源组为 disk 的记录
–# errclear -T UNKN 0
•删除所有类型为 unknown 的记录
–# errclear 0
•删除所有记录
• 显示 error log 的特性
–# /usr/lib/errdemon -l
Error Log Attributes
--------------------------------------------
Log File /var/adm/ras/errlog
Log Size 1048576 bytes
Memory Buffer Size 8192 bytes
6.7 Performance Tools
常用命令
•# ps
•# sar
•# vmstat
•# iostat
•# tprof
•# svmon
•# filemon
例:
CPU 的使用情况(sar –u)
这条命令的语法是:
# sar [options] interval number
例如:
# sar –u 60 3
AIX NODE 2 3 00000211 07/06/99
%usr %sys %wio %idle
08:25:11 48 52 0 0
08:26:10 63 37 0 0
08:27:12 59 41 0 0
.Average 56 44 0 0
当 %usr+%sys > 80% 时,CPU 紧张
查看运行队列(sar –q)
这条命令的语法是:
# sar [options] interval number
例如:
# sar –q 60 3
AIX NODE 2 3 00000211 07/06/99
08:41:21 runq-sz %runocc swap-sz %swpocc
08:42:21 1.2 100
08:43:21 1.0 100
08:44:21 1.1 100
Average 1.2 100
注:命令#sar –q 的输出:
-runq-sz = 运行队列的平均长度。 (运行队列的平均长度就是等待在队列中的进程数目)
-%runocc = 运行队列被占用的时间百分比。
-swap-sz = 等待被内存页交换的进程的平均数目。
-%swapocc = 内存页交换队列被占用的时间百分比。
这些数据会更有意义,如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用。例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。
Paging 信息
注:
命令 vmstat 的输出:
-procs =(每秒)
r 在运行队列中的进程
b 在等待队列中的进程
-memory =( 那个时刻的统计数据)
avm 活动的虚拟页的数目
fre 在空闲列表中的物理内存槽数
-page =(每秒)
re 收回的页
pi/po 交换进内存的页/交换出内存的页
fr/sr 空闲的页/被时钟计算法则检测的页
cy 时钟循环(一般为 0)
-faults =(每秒)
in 设备中断数
sy 系统调用数
cs 上下文交换数
-cpu =(就象命令 sar –u,为百分比)
us 用户进程
sy 核心进程
id 空闲时间
wa I/O 等待时间
这些信息是 sar 报告的补充。
wa 如果超过 25%,那么磁盘子系统可能没有平衡好。
与 AIX 存储相关的基本概念:
PV:Physical Volume 物理卷
VG:Volume Group 卷组
PP: Physical Partition 物理分区
LP:Logical Partition 逻辑分区
LV:Logical Volume 逻辑卷
LVM:Logical Volume Manager 逻辑卷管理器
本文档由社区会员jiaxinchao77 原创并分享,欢迎点击阅读原文下载原文档
长按二维码关注公众号AIX专家俱乐部