查看原文
其他

P740小型机日常维护手册

jiaxinchao77 twt企业IT社区 2022-07-03

某银行P740小型机日常维护手册,由社区会员原创分享


目 录

一. 设备环境介绍

二. 系统操作 

三. 巡检操作

四. 常用操作

五. 日常事务

六. 常用命令



一.  设备环境介绍


设备型号:

IBM P740 8205-E6C


设备功能介绍:

本项目为:全省操作风险管理系统工程,

小型机主要承担授权数据库与事后监督数据库稳定运行与备份

的任务。

其中两台小型机采用互为备份方式:



设备拓扑简介:



设备连接介绍:

每个地市数据中心采用 2 台 IBM Power 740 小型机服务器运行数据库系统,分别运行 HACMP 软件,配置成双机互备系统,保证系统的高可靠性。

2 台 IBM Power 740 分别通过 2 根光纤连接到 2 台存储光纤交换机,

2 台磁盘阵列通过 2 根光纤连接到 2 台存储光纤交换机,如此连接即保证了可靠性,又提高了数据访问的效率。


设备磁盘管控:

小型机 1 主机名为:tyxxdb1, (HMC 管理 IP 为 1.1.1.5)

自身拥有 IP 10.0.31.1, 默认提供数据库名为 TYSQDB 的服务

服务 IP 为 10.0.31.3 默认挂载磁盘/tysqdbdata 和 /rmansq

小型机 2 主机名为:tyxxdb2, (HMC 管理 IP 为 1.1.1.6)

自身拥有 IP 10.0.31.2, 默认提供数据库名为 TYSQDB 的服务

服务 IP 为 10.0.31.4 默认挂载磁盘/tyhddbdata 和 /rmanhd

挂载的磁盘/tysqdbdata 分配空间为: 750G

/rmansq 分配空间为: 875G

挂载的磁盘/tyhddbdata 分配空间为: 1150G

/rmanhd 分配空间为: 1275G


二.  系统操作


系统开关机,检查硬件有无故障。


2.1  开机登录

在开机之前,先检查电源是否插好;然后,按下前面板上白色电源开关后,主机会进入硬件自检和引导阶段;此时,前面板上的液晶会有代码跳动,每一个代码表示自检或引导的不同阶段,最后在引导结束时,前面板液晶上的代码消失,彩显或终端上有显示,进入系统初始化和登录提示,当登陆界面出现时,输入用户名 root 及口令(root) ,以进入系统。

报修:如果主机停在某一代码上,引导不下去(大于半小时),说明系统可能有故障,请与我们联系。

IBM 报修方式:致电 800-810-1818 / 5858,报本设备的序列号,并把代码一起报 IBM 公司。


2.2 asm  方式开机

asm 登录方法:

通过管理网络,web 登录到 https://169.254.2.147 和 https://169.254.3.147

用户名/密码: admin/admin


登录 asm 后, 依次打开 Power/Restart Control, Power on/off System, 此界面会显示当前电源状况: on 或 off, 按下方 Save setting and power on 或 off, 使小型机开机或关机。



2.3  查看报错

依次找到 System Service Aids , Errors/Event Logs

可检查是否有报错日志



2.4  登录 AIX  系统关机

telnet 到 10.0.31.1/2 , 输入 smitty clstop 命令,然后连续回车两次以执行停止HACMP 的进程。

使用 shutdown –F 命令完成关机操作

使用 shutdown –Fr 命令完成重启操作


2.5  启动服务

telnet 到 10.0.31.1/2 , 输入 smitty clstart 命令,然后连续回车两次以执行启动HACMP 的进程。

使用 ps –ef|grep ora 显示是否启动数据库进程

排查 HA 服务是否正常,请参照如下:巡检操作


三.  巡检操作


步骤 1:

通过 telnet 或者直连显示器登录到 10.0.31.1 和 10.0.31.2

用命令 smitty hacmp

选择第四项 Problem Determination Tools,


再进入到第二项 View Current State, 查看当前 HACMP 群集的状态是否正常;


或者使用命令/usr/sbin/cluster/clstat 查看群集状态;按 q 退出

Cluster Substate 字段显示为: stable, 表示群集状态稳定;

群集状态:


步骤 2:

用命令 netstat –in 查看服务 IP: 10.0.31.3 和 10.0.31.4 是否能在主机上显示出来。

小型机 1 的网卡信息

是否含有 IP 10.0.31.3


小型机 2 的网卡信息

是否含有 IP 10.0.31.4



步骤 3:

用命令 df –g 查看服务 IP 对应的文件系统是否已挂载

小型机 1 的磁盘挂载信息是否包含 /rmansq /tysqdbdata


小型机 2 的磁盘挂载信息是否包含 /rmansq /tysqdbdata



四.  常用操作


HACMP 的操作

启动:smitty clstart

停止:smitty clstop

启动/停止过程可以查看/tmp/hacmp.out 文件:

# tail –f /tmp/hacmp.out


检查 Cluster 是否运行正常

Cluster 进程是否运行:#lssrc –g cluster,至少两个进程,且为 active。

IP 地址是否获取:#netstat –in,看 srv ip 是否存在。

VG 是否 varyon:#lsvg –o

文件系统是否 mount:#mount

应用进程是否启动:#ps –ef | grep ora


HACMP 相关日志

/usr/es/adm/cluster.log;

以事件为单位的纪录

/tmp/hacmp.out;

详细记录

/usr/sbin/cluster/history/cluster.mmdd;

历史纪录



五.  日常事务


系统管理员应经常性地检查一些项目,以保证系统可靠和有效地运行。通常建议检查以下项目:

(1)系统运行性能:了解系统当前运行性能是否在正常范围内。

(2)系统参数和环境变量:是否有参数或变量影响系统使用、系统性能或安全等。

(3)系统可靠性设定:如 rootvg 是否镜像以及镜像是否有效,dump 设置是否有效等。


5.1 检查系统运行性能

目的:了解系统当前运行性能评估。

原理:通常从 CPU、内存、IO、网络四个方面依序来评价系统运行性能。

要点:

(1)AIX 的性能好并不代表数据库性能或业务应用系统性能好。

(2)性能的评价应该是个持继的过程,应从多个不同时段去评估。

(3) 参数调整应慎之又慎。 一次不要调多组参数。 调整要有记录并留有观察期。

5.1.1  综合性能查看

命令 功用 说明: 以下为通常的评价指标
#w查看平均负载 load average0-3:轻 3-7:中等 >7 重
#topas 综合显示多项指标:如 CPU、内存、IO、进程等按“h”键得到各指标项解释
#vmstat 1 10显示 CPU、内存等运行指标,间隔 1 秒持续 10 次观察

us+sy > 80 :CPU 负载重

wa >35 : IO 负载重

pi/po 持续非 0 :内存不足

#lsps -s 或

#lsps -a

查看虚拟交换区使用情况

平均使用率<70%: 比较安全


举例:vmstat



5.1.2  分项查看

此处罗列的命令都是常用的观察系统性能指标或做相关调整的命令。命令的准确理解涉及 AIX 操作系统的全面知识。此处仅罗列供参考,详细用法请用man 查看。


举例:swmon


5.1.3  性能调整

CPUMemoryDiskNetwork

nice, renice

time setpri

schedo

vmo,

rmss

chps

ioo,

chlv, chdev

reorgvg

lvmo

no, nfso,

ifconfig

chdev

举例:vmo

#vmo -x

列出由 vmo 命令管理的所有可调参数的当前值、重新引导值、范围、单元、类型和相关性。

#vmo -o minfree=1000 -o maxfree=1008

将系统实内存的最小空闲页面数保持为1000,调整阀值为1008。

系统中如果实内存空闲页面数小于最小设定值, 将会容易引发内存"颠簸"现象, 甚至进程被异程中止或系统死机等。


5.2  检查 AIX  系统运行参数、环境变量

目的:检查重要环境变量与参数。

原理:环境变量和参数会直接影响系统进程或系统性能。

要点:环境变量或参数值通常视系统配置和应用系统要求来确定合理值。


5.2.1 SHELL 环境与环境变量

常用用法功用说明
#env 查看当前环境变量

 1)关注 TERM、TZ、PS1、PATH、HOME、SHELL 等环境变量;

2)=号前后不能有空格

#variable=valume 设置环境变量
#export variable=valume设置环境变量 ,并将该环境变量在子进程中得到继承

举例:

#export TERM=vt100

为当前使用的终端设置一个终端类型,终端类型设置不当时显示屏会混乱。

说明:UNIX 仿真终端通常设 vt100 或 vt200,DOS 下的 telnet 终端设成 ansi。


#PS1="Ready>"

设置用户提示符改为 Ready>。

说明:PS1 用户登录后的正常提示符;PS2 是续行提示符,即命令一行写不完时要在第二行显示一个提示符表示这是继行;PS3 是 root 身份提示符,即用户 su 到 root 身份后的提示符。

AIX 系统中时间设置包括时区、夏时制、日期和时间,要特别关注时区和夏时制问题,如果设置不正确,将会引起系统时间按错误的时区规则而改变。

#echo $TZ

显示系统当前时区设置。echo 命令用于显示变量值。

在大陆地区,该命令的正确结果通常为  BEIST-8,即中华人民共和国时区(东 8 区无夏时制) 。

有时输出结果类似于:BEIST-8BEIDT(东 8 区有夏时制,DT 表示有夏时制)或 CST6DT 等。这样的时区设置通常是错误的,与中国大陆实际情况不符。


要修改时区:

#chtz BEIST-8 :修改后一定要重启主机才能生效。


5.2.2  几个主要的系统运行参数设定


每个参数组用相关 smit 快速菜单进入后,可能会再有子菜单或选项。

举例:AIO



5.3 检查 rootvg  设置

5.3.1  检查 rootvg  镜像

目的:确保 rootvg 是有效镜像保护的,防止因硬盘故障而引起系统宕机。

原理:AIX 操作系统安装在 rootvg 中。通常将 rootvg 中的重要 lv 做成分盘镜像, 也就是每份镜像的 lv 数据都同时分布在两个硬盘上。这样其中一个硬盘故障时,AIX 操作系统仍能工作。

要点: 要经常检查 rootvg 的镜像是否有效?两个盘是否都设为可启动?

命令:#lsvg -l rootvg

举例:


虽然 rootvg 有做 lv 镜像,但还要进一步确保两份数据都可以用于启动 AIX

举例:


5.3.2  检查 DUMP  设置

目的:检查 DUMP 设置是否符合要求。

原理:AIX 系统崩溃(crash)发生时,会将当时的内存内容 dump 到 dumpdevice。系统安装时自动创建两个 dump device:/dev/dumplv(优先用)和/dev/sysdumpnull(次之) 。Dump 发生之后,通常由人工重启 AIX。AIX 启动过程中, 再将 dump device 中的内容拷贝到/var/adm/ras 目录下, 命名为 vmcore.x文件,供分析之用。vmcore.x 文件通常都是很大的。

要点:

1)dump device(lv)不要设置 lv copy,即该 lv 的 LPs:PPs=1。

2)系统每天自动检查/var 剩余空间,如不足以存放可能的 DUMP 内容,则会在错误日志中给出警示信息。

命令:



六.  常用命令


6.1  系统方面


检查系统状态:

系统整体: prtconf

文件系统: df –k,df -g


设备: lsdev –C 获取设备名称、状态、位置和描述。

查看硬盘: lsdev –Cc disk

查看适配卡: lsdev –Cc adapter

处理器个数: lsdev –C|grep proc


系统配置: lscfg –vp 获取所有已配置硬件设备的详细信息。

查看硬盘信息: lscfg –vl hdiskx x 表示数字

查看网卡信息: lscfg –vl entx x 表示数字


查看硬件属性: lsattr –El 获取已配置设备的属性信息。

查看硬盘属性: lsattr –El hdiskx x 表示数字

查看网卡属性: lsattr –El entx x 表示数字

内存大小: lsattr –El mem0

磁盘 lspv

交换分区 lsps –a

软件 lslpp –l 文件包名字

用户 whoami


关机命令:

–shutdown

一分钟后关机

–shutdown +2

二分钟后关机

–shutdown –Fr

关机重启(-r)

关机命令调用/etc/rc.shutdown 关闭程序

可以在这个文件里加上你自己的脚本


6.2  其它基本命令

  • mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录

  • ls 显示目录中的内容(文件名)

#ls –a 列出当前目录中的所有文件

#ls –l 显示文件的详细信息

  • ps / kill 显示后台进程的有关信息或杀死后台进程

#kill -9 253432

  • find 在一个/多个目录中查找符合条件的文件

#find –name ‘t*’ -print

  • head/tail 显示文件头/尾声的内容

#tail +200 filename

  • who/finger 列出系统注册/已登录的用户

#who am I

#finger oracle


6.3 显示文件和目录的空间占用量

du /home |sort –rn


6.4  安全性记录文件

●/var/adm/sulog

记录每次 su 命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。

●/var/adm/wtmp 和/etc/utmp

记录用户的成功登录。使用 who 命令查看。

●/etc/security/failedlogin

记录所有不成功的登录尝试。 如果用户名不存在, 记录为 UNKNOWN 项目。使用 who 命令查看。

安全性相关文件

●包含用户属性和访问控制的文件

●/etc/passwd 合法用户(无口令内容)

●/etc/group 合法用户组

●/etc/security/passwd 含有加密形式的用户口令

●/etc/security/user 用户属性,口令限制

●/etc/security/limits 对用户的限制

●/etc/security/environ 用户环境设定

●/etc/security/login.cfg 登录设置

●/etc/security/group 用户组属性


6.5 用户环境的合法性检查和修正

●检查/etc/passwd/与/etc/security/passwd 的一致性,以及 /etc/security/login.cfg 和/etc/security/user,同时修正错误:

pwdck -y ALL

●检查//etc/security/user、 /etc/security/limits、 /etc/security/passwd,

以及是否每个组在/etc/group 和/etc/security/group 中都有对应条目, 并修正错误:

usrck -y ALL

●检查/etc/group、 /etc/security/group、 /etc/passwd 和/etc/security/user 中关于用户组的内容的一致性,并修正错误:

grpck -y ALL


6.6 错误日志查看

• 所有 AIX 错误都记录在一个记录文件中/var/adm/ras/errlog

• 显示错误

–errpt [-a] -a 为详细显示

可以输出到文件或用 more、pg 察看

•清空错误记录信息

–errclear 0

建立/修改口令

通过 errpt 产生错误报告

•显示所有的错误报告

–# errpt

•只报告硬件错误

–# errpt -d -H

•描述 ID 为 F49E2A17 的错误报告

–# errpt -a -j F49E2A17

例:

# errpt


•标识‘C’ :错误归类

–H:硬件

–S:软件

–O:操作错误

–U:不能确定

•标识‘T’ :错误类型

–PERM(并且 C 为 H):显示系统遇到硬件问题并且无法自动修复

–PERD(并且 C 为 H):系统硬件变为不可用并引起一系列错误系统

–PERM(并且 C 为 S):显示系统遇到软件问题并且无法自动修复

–TEMP(并且 C 为 S):显示系统遇到软件问题并且已经自动修复

•root 用户通过手工命令 errclear 直接清除错误日志

–# errclear 10

•清除 10 天以前的所有日志

–# errclear -d H 0

•清除所有硬件的错误

–# errclear -N disk 0

•删除所有资源组为 disk 的记录

–# errclear -T UNKN 0

•删除所有类型为 unknown 的记录

–# errclear 0

•删除所有记录

• 显示 error log 的特性

–# /usr/lib/errdemon -l

Error Log Attributes

--------------------------------------------

Log File /var/adm/ras/errlog

Log Size 1048576 bytes

Memory Buffer Size 8192 bytes


6.7 Performance Tools

常用命令

•# ps

•# sar

•# vmstat

•# iostat

•# tprof

•# svmon

•# filemon

例:

CPU 的使用情况(sar –u)

这条命令的语法是:

# sar [options] interval number

例如:

# sar –u 60 3

AIX NODE 2 3 00000211 07/06/99

%usr %sys %wio %idle

08:25:11 48 52 0 0

08:26:10 63 37 0 0

08:27:12 59 41 0 0

.Average 56 44 0 0

当 %usr+%sys > 80% 时,CPU 紧张

查看运行队列(sar –q)

这条命令的语法是:

# sar [options] interval number

例如:

# sar –q 60 3

AIX NODE 2 3 00000211 07/06/99

08:41:21 runq-sz %runocc swap-sz %swpocc

08:42:21 1.2 100

08:43:21 1.0 100

08:44:21 1.1 100

Average 1.2 100

注:命令#sar –q 的输出:

-runq-sz = 运行队列的平均长度。 (运行队列的平均长度就是等待在队列中的进程数目)

-%runocc = 运行队列被占用的时间百分比。

-swap-sz = 等待被内存页交换的进程的平均数目。

-%swapocc = 内存页交换队列被占用的时间百分比。

这些数据会更有意义,如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用。例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。

Paging 信息


注:

命令 vmstat 的输出:

-procs =(每秒)

r 在运行队列中的进程

b 在等待队列中的进程

-memory =( 那个时刻的统计数据)

avm 活动的虚拟页的数目

fre 在空闲列表中的物理内存槽数

-page =(每秒)

re 收回的页

pi/po 交换进内存的页/交换出内存的页

fr/sr 空闲的页/被时钟计算法则检测的页

cy 时钟循环(一般为 0)

-faults =(每秒)

in 设备中断数

sy 系统调用数

cs 上下文交换数

-cpu =(就象命令 sar –u,为百分比)

us 用户进程

sy 核心进程

id 空闲时间

wa I/O 等待时间

这些信息是 sar 报告的补充。

wa 如果超过 25%,那么磁盘子系统可能没有平衡好。


与 AIX 存储相关的基本概念:

  • PV:Physical Volume 物理卷

  • VG:Volume Group 卷组

  • PP: Physical Partition 物理分区

  • LP:Logical Partition 逻辑分区

  • LV:Logical Volume 逻辑卷

  • LVM:Logical Volume Manager 逻辑卷管理器


本文档由社区会员jiaxinchao77 原创并分享,欢迎点击阅读原文下载原文档


长按二维码关注公众号AIX专家俱乐部

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存