查看原文
其他

AIX 维护命令总结 & AIX 部分故障定位解决方法总结 | 周末送资料

twt社区 twt企业IT社区 2024-02-18

AIX 维护命令总结


一、系统命令

检查系统状态:

系统整体: prtconf

文件系统:df –k,df -g

设备: lsdev –C 获取设备名称、状态、位置和描述。

例: 

查看硬盘: lsdev –Cc disk

查看磁带机: lsdev –Cc tape

查看适配卡: lsdev –Cc adapter

处理器个数 lsdev –C|grep proc

系统配置:lscfg –vp 获取所有已配置硬件设备的详细信息。

例:

查看硬盘信息: lscfg –vl hdiskx x表示数字

查看网卡信息: lscfg –vl entx x表示数字

查看磁带机: lscfg –vl rmtx x表示数字

查看硬件属性: lsattr –El 获取已配置设备的属性信息。

例:

查看硬盘属性: lsattr –El hdiskx x表示数字

查看网卡属性: lsattr –El entx x表示数字

查看磁带机属性: lsattr –El rmtx x表示数字

内存大小:lsattr –El mem0

磁盘:lspv

交换分区:lsps –a

软件:lslpp –l 文件包名字

用户:who

关机命令:

–shutdown

一分钟后关机

–shutdown +2

二分钟后关机

–shutdown –Fr

关机重启(-r)

关机命令调用/etc/rc.shutdown关闭程序

可以在这个文件里加上你自己的脚本

其它基本命令

passwd

passwd:—输入旧口令

new passwd:—输入新口令

re-enter new passwd:—重新输入新

mkdir/rm/mv/cd -用于创建目录/删除文件或目录/更改文件或目录名/进入某一目录

ls 显示目录中的内容(文件名)

ls –a 列出当前目录中的所有文件

ls –l 显示文件的详细信息

ps / kill 显示后台进程的有关信息或杀死后台进程

kill -9 253432

find 在一个/多个目录中查找符合条件的文件

#find –name ‘t*’ -print

head/tail 显示文件头/尾声的内容

#tail +200 filename

who/finger 列出系统注册/已登录的用户

#who am I

#finger user2

光驱cdrom

加载cdrom 

使用:

mount -rv cdrfs /dev/cd0 /cdrom

–或者创建一个CD-ROM文件系统并进行加载

smit cdrfs

mount /cdrom

卸载cdrom 

– unmount /cdrom


二、备份与恢复

rootvg备份 — mksysb

  • 只备份rootvg

  • 只备份已挂接的文件系统

  • 以备份格式创建可启动磁带

  • 保存rootvg中的换页空间设备定义

  • 保存逻辑卷策略

  • 备份时应使活动的用户和应用减至最少

注:mksysb创建操作系统备份,如果rootvg中有用户创建的文件系统,只要它已挂接,也被备份,用户创建的不含文件系统的逻辑卷内容及定义不备份。mksysb创建的备份磁带是可启动的,并可以进行BOS安装。

从磁带恢复rootvg备份时,所有文件系统被恢复,启动逻辑卷自动创建,文件系统日志设备按照默认大小(一个逻辑分区)创建,根据保存的换页空间设置生成同样大小的换页空间设备。

用户可以用一个系统上生成的rootvg备份恢复到另一系统上,前提是两个系统的结构相同,总线结构不同(MCA和PCI)或SMP(支持多CPU)与非SMP(只支持一个CPU)的系统间不能进行上述操作。

smit mksysb

  • Creation of a MAP file:是否为卷组中每个要备份的逻辑卷生成逻辑分区到物理分区的映像文件。这个映像文件可以使恢复时逻辑卷策略和逻辑分区到物理分区的映射关系保持相同。建议创建。

  • EXCLUDE files:如果选择yes,将使得文件/etc/exclude.rootvg文件中列出的文件和目录不被备份。

  • Make BOOTABLE backup:是否生成可启动备份,一般取默认值——yes。

  • EXPAND /tmp if needed:是否在需要时自动扩展/tmp文件系统。强烈建议选yes。

  • Number of BLOCKS to write in a single output:选择每次写出的数据量,以512字节块为单位。

非rootvg的卷组备份

smit savevg

恢复rootvg备份

依照从磁带安装操作系统的步骤用mksysb磁带启动

Welcome to Base Operting System

Installation & Maintenance

1 Start Install Now With Default Settings

2 Change/Show Installation Settings and Install

3 Start Maintenance Mode for System Recovery

Maintenance

1 Access A Root Volume Group

2 Copy a System Dump to Removable Media

3 Access Advanced Maintenance Functions

4 Install from a System Backup

Choose Tape Drive

Tape Drive Path Name

1 tape/scsi/4mm/12GB /dev/rmt0

恢复非rootvg卷组备份

smit restvg

依文件名备份-smit屏幕

smit backfile

其他UNIX备份命令

●tar (tape archive)

◇适用范围广

◇非常适合在不同UNIX平台间传送文件

◇可恢复空目录(-d选项)

◇不支持AIX访问控制列表(ACL,属于扩展inode内容)

●cpio(copy input to output)

◇适用范围广

◇符号链接较多时可能不能正常工作

◇不支持AIX访问控制列表(ACL,属于扩展inode内容)

●dd(device to device)

◇创建精确相同的备份映像,可用于精确备份逻辑卷

◇可用于转换某些内容(例如大小写、ASCII与EBCDIC互转等)

三、AIX安全

控制增长迅速的文件

●/var/adm/wtmp

●/var/spool//

●/smit.log

●/smit.script

●/etc/security/failedlogin

●/var/adm/sulog

显示文件和目录的空间占用量

du /home |sort –rn

安全性记录文件

●/var/adm/sulog

记录每次su命令的执行。这是个文本文件。使用任何观看文本文件的命令查看。

●/var/adm/wtmp和/etc/utmp

记录用户的成功登录。使用who命令查看。

●/etc/security/failedlogin

记录所有不成功的登录尝试。如果用户名不存在,记录为UNKNOWN项目。使用who命令查看。

安全性相关文件

●包含用户属性和访问控制的文件

●/etc/passwd 合法用户(无口令内容)

●/etc/group 合法用户组

●/etc/security/passwd 含有加密形式的用户口令

●/etc/security/user 用户属性,口令限制

●/etc/security/limits 对用户的限制

●/etc/security/environ 用户环境设定

●/etc/security/login.cfg 登录设置

●/etc/security/group 用户组属性

用户环境的合法性检查和修正

●检查/etc/passwd/与/etc/security/passwd的一致性,以及/etc/security/login.cfg和/etc/security/user,同时修正错误:

pwdck -y ALL

●检查//etc/security/user、/etc/security/limits、/etc/security/passwd,以及是否每个组在/etc/group和/etc/security/group中都有对应条目,并修正错误:

usrck -y ALL

●检查/etc/group、/etc/security/group、/etc/passwd和/etc/security/user中关于用户组的内容的一致性,并修正错误:

grpck -y ALL


四、错误日志查看

•所有AIX错误都记录在一个记录文件中/var/adm/ras/errlog

•显示错误 

–errpt [-a] -a 为详细显示

可以输出到文件或用more、pg察看

•清空错误记录信息

–errclear 0

建立/修改口令

通过errpt产生错误报告

•显示所有的错误报告

–# errpt

•只报告硬件错误

–# errpt -d -H

•描述ID为F49E2A17的错误报告

–# errpt -a -j F49E2A17

例:

errpt

•标识‘C’:错误归类

–H:硬件

–S:软件

–O:操作错误

–U:不能确定

•标识‘T’:错误类型

–PERM(并且C为H):显示系统遇到硬件问题并且无法自动修复

–PERD(并且C为H):系统硬件变为不可用并引起一系列错误系统

–PERM(并且C为S):显示系统遇到软件问题并且无法自动修复

–TEMP(并且C为S):显示系统遇到软件问题并且已经自动修复

•root用户通过手工命令errclear直接清除错误日志

–# errclear 10

•清除10天以前的所有日志

–# errclear -d H 0

•清除所有硬件的错误

–# errclear -N disk 0

•删除所有资源组为disk的记录

–# errclear -T UNKN 0

•删除所有类型为unknown的记录

–# errclear 0

•删除所有记录

•显示error log的特性

–# /usr/lib/errdemon -l

Error Log Attributes

--------------------------------------------

Log File /var/adm/ras/errlog

Log Size 1048576 bytes

Memory Buffer Size 8192 bytes


五、Performance Tools

常用命令

•# ps

•# sar

•# vmstat

•# iostat

•# tprof

•# svmon

•# filemon

例:

CPU的使用情况(sar –u)

这条命令的语法是:

sar [options] interval number

例如:

sar –u 60 3

AIX NODE 2 3 00000211 07/06/99

%usr %sys %wio %idle

08:25:11 48 52 0 0

08:26:10 63 37 0 0

08:27:12 59 41 0 0

.Average 56 44 0 0

当 %usr+%sys > 80% 时,CPU 紧张

查看运行队列(sar –q)

这条命令的语法是:

sar [options] interval number

例如:

sar –q 60 3

AIX NODE 2 3 00000211 07/06/99

08:41:21 runq-sz %runocc swap-sz %swpocc

08:42:21 1.2 100

08:43:21 1.0 100

08:44:21 1.1 100

Average 1.2 100

注:命令#sar –q的输出:

-runq-sz = 运行队列的平均长度。(运行队列的平均长度就是等待在队列中的进程数目)

-%runocc = 运行队列被占用的时间百分比。

-swap-sz = 等待被内存页交换的进程的平均数目。

-%swapocc = 内存页交换队列被占用的时间百分比。

这些数据会更有意义,如果收集一段时间并且研究它的趋势。在有些环境下可以接受庞大的运行队列,而另外的环境就不一定适用。例如,在一个传统的商业环境中,进程都是简单而运行快速的,这时系统性能还可以忍受大的运行队列。而在一个工程或者科学计算环境中,进程一般都是巨大且需要更密集的资源的,此时就不能忍受大的运行队列。

Paging 信息

vmstat 1 3

注:

命令vmstat的输出:

-procs =(每秒)

r 在运行队列中的进程

b 在等待队列中的进程

-memory =( 那个时刻的统计数据)

avm 活动的虚拟页的数目

fre 在空闲列表中的物理内存槽数

-page =(每秒)

re 收回的页

pi/po 交换进内存的页/交换出内存的页

fr/sr 空闲的页/被时钟计算法则检测的页

cy 时钟循环(一般为0)

-faults =(每秒)

in 设备中断数

sy 系统调用数

cs 上下文交换数

-cpu =(就象命令sar –u,为百分比)

us 用户进程

sy 核心进程

id 空闲时间

wa I/O等待时间

这些信息是sar报告的补充。

wa如果超过25%,那么磁盘子系统可能没有平衡好。

与AIX存储相关的基本概念

PV:Physical Volume 物理卷

VG:Volume Group 卷组

PP: Physical Partition物理分区

LP:Logical Partition 逻辑分区

LV:Logical Volume 逻辑卷

LVM:Logical Volume Manager逻辑卷管理器


六、错误报告流程

常见错误代码

在上电的每一阶段,LCD面板都要显示一些数字信息:

它为您指示:

正在进行加载的设备

当前的工作状态

加载失败的原因

可以在诊断手册中查到数字信息的含义

主机启动时的常用LED错误代码

0223-0229: Invalid boot list.

0551,0555,0557: Corrupted file system, corrupted JFS log, and so on 

0552,0554,0556: Super block corrupted and corrupted customized ODM 

0553: Corrupted /etc/inittab file 

硬件报错通常LED会显示8位代码,请将这8位号码记录下来

除了8位代码外,报修还需要记录故障服务器的型号和序列号,这些号码在服务器的前面板上,也可以通过prtconf命令来查看:

设备型号一览表:

550的型号为:9113-550

570的型号为:9117-570

DS4300的型号为:1722-60U

DS4500的型号为:控制柜:1742-90U

扩展柜:1740-1RU

3582的型号为:3582-L23

3583的型号为:3583-L36

光纤交换机的型号为:2026-E12

由社区会员lonebird2008分享,地址:

http://www.talkwithtrend.com/Article/243353


AIX 部分故障的判断、定位、解决方法手册


为了规范故障维护步骤,简化维护过程,编写本手册以供参考。由于AIX故障种类多,不能一一列举,这里简单介绍部分故障判断,定位,解决方法。

一. 故障的定义 

  • 弄清楚系统发生了什么问题? 

  • 系统现在能做什么?不能做什么? 

  • 故障什么时候发生的? 

  • 有没有做平时不同的操作? 

  • 故障有没有规律?定时还是不定时?发生的频率有多高? 

  • 是一台机器出现故障还是多台机器故障?故障现象是否相同? 

  • 最近有没有做改动?如安装了新的硬件、软件,改变了系统的一些设置。

检查机器是否存在故障 

一般情况下,可以通过以下几种方法来收集错误信息 

1、查看机器各种指示灯状态 

机器上有许多指示灯即时说明机器运行的状态,这些指示灯的状态可以作为判断机器是否有故障的一个依据。当指示灯的状态不正常时,需要引起注意。比如,当机器警告灯亮的时候,一般都是机器的硬件出现问题,需要查看系统报错日志来查看具体的错误信息。 

2、查看系统故障记录收集信息 

errdemon 进程在系统启动时自动运行,记录包括硬件、软件及其他操作信息。故障记录文件为/var/adm/ras/errlog,可备份下来或拷贝到别的机器上分析。 

也可以使用errpt 命令来查看(普通用户权限也可使用) 

#errpt |more 列出简短出错信息 

ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION 
192AC071 0723100300 T 0 errdemon Error logging turned off 
0E017ED1 0720131000 P H mem2 Memory failure 
9DBCFDEE 0701000000 T 0 errdemon Error logging turned on 
038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR 
AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION 

TIMESTAMP: MMDDHHMMYY (月日时分年) 
T(类型): P 永久;T 临时; U 未知(永久性的错误应引起重视) 
P:Permanent;T:Temporary;U:Unknow。
C(分类):H 硬件;S 软件;O 用户; U未知 
H:Hardware;S:Software;O:U:Unknow。

#errpt -d H 列出所有硬件出错信息 

#errpt -d S 列出所有软件出错信息 

#errpt -aj ERROR_ID 列出详细出错信息 

# errpt -aj 0502f666 <--- ERROR_ID用大小写均可 

例: 
LABEL: SCSI_ERR1 
ID: 0502F666 
Date/Time: Jun 19 22:29:51 
Sequence Number: 95 
Machine ID: 123456789012 
Node ID: host1 
Class: H 
Type: PERM 
Resource Name: scsi0 
Resource Class: adapter 
Resource Type: hscsi 
Location: 00-08 
VPD: <--- Virtal Product Data 
Device Driver Level.........00 
Diagnostic Level............00 
Displayable Message.........SCSI 
EC Level....................C25928 
FRU Number..................30F8834 
Manufacturer................IBM97F 
Part Number.................59F4566 
Serial Number...............00002849 
ROS Level and ID............24 
Read/Write Register Ptr.....0120 
Description 
ADAPTER ERROR 
Probable Causes 
ADAPTER HARDWARE CABLE 
CABLE TERMINATOR DEVICE 
Failure Causes 
ADAPTER 
CABLE LOOSE OR DEFECTIVE 
Recommended Actions 
PERFORM PROBLEM DETERMINATION PROCEDURES 
CHECK CABLE AND ITS CONNECTIONS 
Detail Data 
SENSE DATA 
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 

3、控制面板上的LED 代码 

一般为8 位代码,通常系统故障灯会同时亮起。某些机型还会同时显示故障设备位置代码。 

4 位代码,通常是Exxx。 

3 位代码,通常为0yyy,只看后3位。 

8 位和4位代码可查看系统服务手册 (Service Guide)。 

3 位代码可查看系统诊断手册(Diagnostic Information for Multiple Bus System)。 

闪动的 888, 系统崩溃,硬件或软件原因造成。按reset 键会显示更多内容。 

888-102 一般为软件故障(888-102-207 例外) 。系统会产生一个dump。

888-102-xxx-0C9 系统正在做dump, 请等待。

888-102-xxx-0C0 系统dump完成,可关电重启。

888-103 或 105    硬件故障,一般有 SRN 代码及位置代码。 

4.SMS (SystemManagement Service) 故障记录 

当主控台出现键盘图标后(LED 显示E1F1时)按1键。进入SMS 菜单 

选择"Utilities" 

选择"Error Log", 抄下8位故障代码(在SMS 中还可以更改系统启动顺序表)

5.MAIL 

#mail 

系统会向root用户发mail报告出错信息。通常系统出现故障后没有进行检查修复,系统会定时提醒root。 

6.运行故障诊断程序(Diagnostic),对系统硬件进行检查和诊断。 

当发现有硬件故障时应立即使用diag 

#diag 

> 选高级诊断(Advance Diagnostic) 

> 选问题诊断(Problem Determination) 或选系统检查(System Verification) (选PD 会对系统错误记录进行分析) 

diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。 

对于PCI机型应在系统报错7天之内运行diag程序对出错记录里的sense数据进行分析。

7.查看系统重要记录日志 

在某些情况下,系统的错误日志无法记录一些错误信息,这时,就需要查看相关的系统日志。这些日志包括系统启动日志,smit日志,HACMP切换日志等等,以下对这些日志进行说明。

a、系统启动日志 

系统启动日志记录系统在启动过程中的详细信息,包括设备识别,内核加载,文件系统装载,后台进程的启动等信息。这些信息在错误日志没有完整的记录,但是通过查看启动日志,可以得到详细的信息。查看系统启动日志的命令为:alog  - o - t boot

b、smit.log 

smit.log记录了通过smit菜单执行命令的过程和结果信息。通过查看smit.log可以知道在系统上进行操作的历史信息,查看这些命令执行的结果是否正常,从而判断是否存在隐患或故障。Smit.log在系统根目录下,通过cat命令就可以查看。 

c、HACMP.OUT 

Hacmp.out文件记录HACMP发生切换时候的详细过程和结果信息。查看hacmp.out文件可以知道系统出现什么原因而引起切换,从而判断是否有故障发生。 


二、判断故障类别 

1.硬件故障 

通常将硬件故障分为以下几个类别: 

IBM 小型机故障定位方法包括小型机I/O柜上的显示面板上的Checkpoints信息,Error Code 和SRN。 

Checkpoints 检查点是系统加电CMOS初始化程序(initial program load (IPL))运行后显示在 I/O柜的显示面板上一系列信息。

IPL 流程 

当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤: 

Phase 1: ServiceProcessor 的初始化 

Phase 1 开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示 8xxx 或9xxx checkpoints代码 。

Phase 2: 由 ServiceProcessor 引导的硬件初始化 

Phase 2 开始于按下I/O柜上的白色电源开关。在这个步骤会显示 9xxx checkpoints 。91FF 是最后的代码标志着第三步骤的开始 

Phase 3: 系统固件的初始化 

在 Phase 3, 一个系统处理器接管控制并继续初始化系统资源, 在这个步骤会显示Exxx。E105是最后的代码标志着第四步骤AIX启动的开始。在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)

Phase 4: AIX 启动

当AIX开始启动时,显示面板上的代码为 0xxx ,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。

Error Code 

当系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。 

SRNs (Servicerequest numbers,服务请求码 )

当系统运行有错误发现时,SRNs码会以 xxx-xxx的形式显示在显示面板上,同时在AIX的error log中也会有记载。用diag命令进行检测,diag步骤如下:

#diag 

> 选高级诊断(Advance Diagnostic) 

> 选问题诊断(Problem Determination) 或 

选系统检查(System Verification)   (选PD 会对系统错误记录进行分析) 

diag运行后会给出SRN 代码,故障设备名称及百分比,地址代码等。

2. 操作系统故障 

系统无法正常操作,命令无法正常执行,或者系统频繁地报系统问题,都有可能是操作系统故障造成的。软件故障情况错综复杂,下面列举几个常见案例的故障处理方法。 

1)文件系统空间不够。 

查看有没有“满”的文件系统。特别是/、/var、/tmp,不要超过90%。文件系统满可导致系统不能正常工作,尤其是AIX的基本文件系统。如/ (根文件系统)满则会导致用户不能登录。用df –k 查看。 

# df -k (查看AIX的基本文件系统) 

Filesystem 1024-blocksFree %Used Iused %Iused Mounted on 
/dev/hd4 24576 1452 95% 2599 22% / 
/dev/hd2 614400 28068 96% 22967 15% /usr 
/dev/hd9var 8192 4540 45% 649 32% /var 
/dev/hd3 167936 157968 6% 89 1% /tmp 
/dev/hd1 16384 5332 68% 1402 35% /home 

除/usr文件系统,其他文件系统都不应太满,一般不超过80%。 

处理方法1:删除垃圾文件 

# du-sk * |sort -rn |head 

查找出当前目录下占空间最大的子目录,逐层往下直到找出占空间最大的文件。(要区分哪些目录是文件系统的 mount point,哪些是文件系统的子目录)删除文件,释放空间。有时删除文件后空间并不马上释放,这是由于你删除的文件正被某个程序打开。只有当这个程序停止后空间才释放,有时甚至需要重启系统。 

处理方法2:增加文件系统大小 

#smitty chjfs   或 命令(速度快一些)

文件系统可以在任何时候加大,前提是卷组(VG)中有剩余空间。

2) 检查文件系统的完整性 

#umount filesystem_name 
# fsck -yfilesystem_name
 

注意:文件系统必须先umount,再做检查和修复,否则可导致未 
知的后果。 

3)查看卷组信息(lsvg -lvg_name)

有没有"stale"状态的逻辑卷。若有,用syncvg 命令修复"stale"逻辑卷。

stale[steil] n. (牲畜等的)尿 adj.不新鲜的, 陈腐的, 疲倦的, 陈旧的 vt. 使变旧, 走味 vi.变陈旧, 变无味, 失时效, 撒尿。

4)检查内存交换区(paging space)使用率(lsps -s)

使用率是否超过70%。

若有则用

chps –sX pgname   增加X个PP

或用 

mkps –a –n –sX myvg 在myvg上增加一个PP数为X的内存交换区。

3.  外连设备故障 

与RS6000机器相连的其他设备发生故障时,会对主机造成影响,从而引发故障。比如网络交换机故障,外置存储故障等等。 

常见故障记录汇总: 

1)7133硬盘故障

故障:在AIX系统中用#errpt –aj|more命令查看到有描述为“pdiskx error” 级别显示为“H”类型显示为“P”。 

分析:含有该报错的服务器所连接的存储可能发生物理硬盘损坏的故障。 

用户可以用以下命令察看7133RAID的状态: 

在AIX系统中用#smitty ssaraid 

List Status of all Defined SSA RAIDArrays 

当RAID中的硬盘出现问题时,此RAID的状态是“degraded” 

可用以下命令判断 硬盘是否被阵列(Array)剔除(reject): 

在AIX系统中用#smit ssaraid 

List/Identify SSAPhysical Disks 

List Rejected ArrayDisks如果看到pdiskx被阵列剔除,说明该pdiskx存在物理故障。

解决:更换该pdiskx的物理硬盘

2)机器电源故障 

故障:查看IBM 服务器如果前面板上有黄色报警灯亮起,并且在服务器电源处电源灯亮黄色报警灯或者有不正常闪烁。在在AIX系统中用#errpt –aj|more命令查看到有描述为“power error”级别显示为“H”类型显示为“P”。 

分析:按照该ERRPT报错信息与服务器面板及其电源外部报警灯显示情况,可以确定服务器电源出现硬件故障,必须进行更换。按照服务器的不同机器类型可以采取停机更换电源和不停机更换电源的方法。 

解决:更换该出现故障的电源。 

3)机器环境故障 

故障:在AIX系统中用#errpt –a|more命令查看到有描述为“TEMPERATURE UNACCEPTABLE”级别显示为“H”类型显示为“P”。 

分析:按照该ERRPT报错信息可以确定服务器运行的环境不在健康的环境中,机房温度过高,不符合在20摄氏度的环境中。 

解决:使服务器所在的机房环境达到20摄氏度恒温状态。

4)文件系统故障 

故障:在AIX系统中用#errpt –a|more命令查看到有描述为“FILE SYSTEM CHECK REQUIED”级别显示为“H”类型显示为“P”。并且说明某个文件系统需要用fsck命令进行check。 

分析:按照该ERRPT报错信息可以确定该文件系统存在故障,需要人工对其文件系统进行fsck操作,从而确保数据的安全性、可靠性和可用性。

解决:停应用后进行fsck该文件系统。 

5)内置硬盘故障 

故障:发现硬盘无法进行写操作。 

分析:对数据库所在的物理硬盘进行写文件操作,如果写文件操作失败,从而确定该物理硬盘有故障发生,必须及时更换。 

解决:停数据库后进行物理硬盘的更换。

6)SSA卡电池故障 

故障:在系统中用errpt命令查看错误日志,发现有大量ssa adapter报错,错误级别显示为“H”类型显示为“P”。错误信息为ssa adapter performance degrade。 

分析:对ssaadapter 运行diag,返回SRN代码为4252A。根据IBM资料,信息如下: 

4252A Description: Thesupply voltage to the Fast-Write Cache Option Card is 
low. The card has switched to Self-Refresh mode. 
Action: In the sequence shown, exchange the FRUs for new FRUs. 
Possible FRUs: 
Fast-Write Cache Option 
Card (90%) (“Removing the 
Fast-Write Cache Option 
Card of an Advanced 
SerialRAID Adapter” on 
page 332). 
SSA adapter card (10%) 

根据此信息,判断是raid卡上cache电池电量不足,需更换电池。

7)磁带机故障 

故障:磁带机面板上亮黄灯。 

分析:磁带机磁头脏,导致读盘不正常,或无法读盘。 

解决:用清洗带清洗磁头。 

8)文件空间无法释放 

故障:某个日志文件不停增大,在线清空文件后,空间仍未释放。

分析:在线清空文件时,系统对文件存储指针(i-node)没有被更新,所以空间没有被释放 

解决:umount该文件所在的文件系统,对该文件系统进行fsck -y即可。

9)机器启动故障 

故障:机器重新启动之后,IP地址没有被加载,tcp/ip的后台进程没有启动 。

分析:查看系统boot日志(alog –o –t boot),发现系统启动调用rc.net 文件时报错,错误信息为permission denied,检查rc.net的权限,发现已被更改,无执行权限。

解决:将rc.net的权限更改为544  101 100 100 。

10)LPAR启动故障

故障:一台P630,划分两个lpar,发现只能同时启动一个lpar,另外一个lpar无法启动,错误信息为already has a service authority partition 。

分析:在partition属性中有一个service authority的选项,选上之后说明微码升级时是通过该分区进行。一台机器的所有lpar上只能有一个分区有这个选项属性。查看两个分析属性之后,发现两个分区都有这个属性,所以引起冲突,只能有一个可以启动。 

解决:将一个分区的service authority属性去掉。 

11)镜像文件系统故障 

故障:系统中有stale状态的文件系统。 

分析:文件系统的状态有:open, closed, syncd, stale。前两项代表当前文件系统是否可以访问,后两项代表文件系统数据是否完全。Syncd是指数据已同步这个应该是正常时显示的,stale是指文件系统数据未同步,这种状态是不正常的。 

解决:用命令修复"stale"逻辑卷。

本文档由社区会员guowanqun上传分享

点击文末阅读原文即可下载觉得本文有用,请转发、点赞或点击在看,让更多同行看到


点击阅读原文关注社区"AIX"技术主题 ,将会不断更新优质资料、文章,您也可以前往提出疑难问题,与同行切磋交流。地址:http://www.talkwithtrend.com/Topic/117


下载 twt 社区客户端 APP


长按识别二维码即可下载

或到应用商店搜索“twt”


长按二维码关注公众号

*本公众号所发布内容仅代表作者观点,不代表社区立场

继续滑动看下一个

AIX 维护命令总结 & AIX 部分故障定位解决方法总结 | 周末送资料

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存