服務熱線:4006-981-828
解決方案
方案中心
維保知識庫
售前方案
下載中心
常用補丁
安裝鏡像
AIX巡檢指導手冊

 

第1章 機房環境檢查

機房環境需要檢查的內容如下:
A. 機房是否干凈,是否有許多灰塵。
B. 機房是否配置氣體滅火器。
C. 機房如果有地板,地板通氣孔位置是否到位。
D. 機房是否有易燃氣體。
E. 機房是否漏水。
F. 機房電壓是否穩定,建議電壓值保持在220V±5%。
G. 機房零地電壓是否小于1伏
H. 機房機房溫度是否正常,建議機房的溫度保持在24±2℃。
I. 機房機房濕度是否正常,建議機房的濕度保持在8%-80%。
J. 是否有遠程自動報警裝置。

第2章 狀態指示燈檢查

檢查硬件部件狀態指示燈時,首先需要檢查主機面板的告警指示燈是否亮黃色,如果是亮黃色,則需要檢查一下其它硬件部件(例如:電源、風扇、網卡、光纖通道卡、內置硬盤、內置磁帶機等)的狀態指示燈是否亮黃色。當硬件部件指示燈亮黃色時,需要引起注意,硬件部件可能壞掉或有故障需要處理。在檢查風扇時,請注意仔細聽風扇的聲音是否有異常,如果風扇的聲音過大,則有可能是其它冗余風扇已經壞掉而造成風扇轉速加快造成。

第3章 配置檢查

運行下列命令進行主機配置檢查:
# prtconf
 
 
運行下列命令進行主機資產檢查:
# lscfg –vp
 

第4章 系統配置檢查

4.1 處理器

運行命令:lsconf,檢查CPU類型、位數、主頻和數量,例如:
# lsconf
System Model: IBM,9113-550                       <---  機器型號
Machine Serial Number: 65FD8FE                   <---  機器序列號
Processor Type: PowerPC_POWER5                   <---  CPU類型
Number Of Processors: 2                          <---  CPU數量
Processor Clock Speed: 1504 MHz                  <---  CPU主頻
CPU Type: 64-bit                                 <---  CPU位數
Kernel Type: 64-bit                              <---  內核類型
LPAR Info: 1 65-FD8FE                            <---  LPAR信息
Memory Size: 3808 MB                             <---  內存大小
Good Memory Size: 3808 MB                        <---  可用的內存大小
Platform Firmware level: Not Available
Firmware Version: IBM,SF230_126                  <---  機器微碼版本
Console Login: enable
 

4.2 內存

運行命令:lsconf –m,檢查內存大小,例如:
# lsconf –m
Memory Size: 3808 MB
 
內存大小為3808MB

4.3 內置硬盤

運行命令:lsdev –Cc disk和lscfg –vl hdiskX,檢查內置硬盤的數量和容量,例如:
# lsconf –Cc disk
hdisk0 Available 10-88-00-8,0  16 Bit LVD SCSI Disk Drive
hdisk1 Available 10-88-00-10,0 16 Bit LVD SCSI Disk Drive
hdisk2 Available 10-88-00-9,0  16 Bit LVD SCSI Disk Drive
 
內置硬盤有3個
 
# lscfg –vl hdisk0
hdisk0           P2/Z1-A8  16 Bit LVD SCSI Disk Drive (73400 MB)
 
內置硬盤的容量為73.4GB

4.4 內置磁帶機

運行命令:lscfg –vl rmt0,檢查內置磁帶機的容量,例如:
# lscfg –vl rmt0
rmt0  U787B.001.DNW42A7-P1-T14-L0-L0   LVD SCSI 4mm Tape Drive (36000 MB)
 
磁帶機的非壓縮容量是3600MB

4.5 內核類型

運行命令:lsconf –k,檢查內核類型,例如:
# lsconf –k
Kernel Type: 64-bitk
 
系統內核是64位

4.6 微碼版本

運行命令:lsmcode –c,檢查機器的微碼版本,例如:
Power3以前機器:
# lsmcode -c
System Firmware level is SST99229
Service Processor level is ss990816
 
機器微碼版本是SST99229
 
Power3、Power4機器:
# lsmcode -c
Platform Firmware level is 3H080425      
System Firmware level is RG080425_d79e22_regatta
SPCN Firmware level is 0000RHE11193
機器微碼版本是3H080425
Power5、Power6機器:
The current permanent system firmware image is SF225_096
The current temporary system firmware image is SF225_096
The system is currently booted from the temporary firmware image.
機器微碼版本是SF225_096。備注:一般是檢查temporary system firmware版本。
 

4.7 系統版本及補丁

運行命令:oslevel,檢查系統版本和補丁,例如:
# oslevel -r
5300-07
操作系統版本是5.3
# oslevel -s
5300-07-01-0748
操作系統版本是5.3,TL是07,SP是01,Fix Level是0748。

4.8 系統時區

運行命令:echo $TZ,檢查系統時區,例如:
# echo $TZ
BEIST-8
 
正確的系統時區設置為BEIST-8。
 
備注:如果啟用了夏時制,輸出值為BEIST-8BEIDT,則需要運行命令:chtz BEIST-8,改變時區,然后重啟系統,再調整日期和時間。

4.9 AIO(異步I/O)

運行命令:lsdev –Cc aio,檢查是否啟用AIO,例如:
# lsdev -Cc aio
aio0 Available  Asynchronous I/O (Legacy)
 
aio0 Available表示啟用了AIO,如果是Defined,表示未啟用AIO,則需要運行下列命令啟用AIO:
# chdev -l aio0 -P -a autoconfig='available'
 
或者
 
# smitty chaio
 
然后重啟系統。

4.10 最大進程數

運行命令:lsattr –El sys0 –a maxuproc,檢查系統每用戶的最大進程數,例如:
# lsattr –El sys0 –a maxuproc
maxuproc 512 Maximum number of PROCESSES allowed per user  True
 
系統每用戶的最大進程數為512,如果需要增加最大進程數到1024,則運行命令:
# chdev –El sys0 –a maxuproc=1024

4.11 SMT(并發多線程)

只有Power5或以后的機器,才支持SMT功能。運行命令:smtctl,檢查系統是否啟用SMT功能,例如:
# smtctl
 
This system is SMT capable.
SMT is currently enabled.
 
SMT boot mode is not set.
SMT threads are bound to the same physical processor.
 
proc0 has 2 SMT threads.
Bind processor 0 is bound with proc0
Bind processor 1 is bound with proc0
 
proc2 has 2 SMT threads.
Bind processor 2 is bound with proc2
Bind processor 3 is bound with proc2
 
proc4 has 2 SMT threads.
Bind processor 4 is bound with proc4
Bind processor 5 is bound with proc4
 
proc6 has 2 SMT threads.
Bind processor 6 is bound with proc6
Bind processor 7 is bound with proc6
 
SMT is currently enabled表示啟用了SMT功能,SMT is currently disabled表示未啟用SMT功能,如果需要啟用SMT功能,則運行下列命令:
# smtctl –m on

4.12 換頁空間

運行命令:lsps –a,檢查系統換頁空間大小,例如:
# lsps -a
Page Space  Physical Volume   Volume Group  Size   %Used  Active  Auto  Type
hd6         hdisk0            rootvg        2048MB   1    yes     yes    lv
paging00    hdisk1            rootvg        2048MB   1    yes     yes    lv
 
系統創建了2個換頁空間,大小分別都為2048MB,則系統換頁空間總的大小為4096MB。
當物理內存小于等于4G時,系統換頁空間大小一般為物理內存的1-2倍;物理內存大于4G時,系統換頁空間大小一般設置為內存大小,再觀察系統,檢查換頁空間的使用情況,根據需要再增加系統換頁空間大小。
 
例如,當需要增加hd6換頁空間大小,則運行命令:
# chps –s LPS hd6
備注:LPS是需要增加的換頁空間LP數量。

4.13 dump設置

運行命令:sysdumpdev –l檢查系統dump設置,例如:
# sysdumpdev -l
primary              /dev/lg_dumplv
secondary            /dev/sysdumpnull
copy directory       /var/adm/ras
forced copy flag     TRUE
always allow dump    TRUE
dump compression     ON
 
系統dump的正確設置如上輸出。如果不是請運行下列命令修改:
# sysdumpdev -P -p /dev/lg_dumplv -K –C
 
評估當前系統dump需要的空間大小:
# sysdumpdev –e
 
顯示關于以前發生DUMP的統計信息:
# sysdumdev -L
 
檢測是否有新的DUMP出現:
# sysdumpdev -z

4.14 errdemon進程

運行命令:ps -ef |grep errdemon,檢查系統errdemon守護進程是否在運行,例如:
# ps -ef |grep errdemon
root  155748       1   0   Jul 14      -  0:00 /usr/lib/errdemon
 
上面輸出信息表示errdemon守護進程在運行。
 
錯誤日志守護進程從/dev/error文件里讀入錯誤記錄并在系統錯誤日志里創建錯誤日志記錄。除了在每次記錄錯誤時向系統錯誤日志里寫一條記錄外,錯誤日志守護進程還執行像在錯誤通知數據庫里指定的錯誤通知。/etc/objrepos/errnotify 文件就是錯誤通知數據庫。默認的系統錯誤日志由 /var/adm/ras/errlog 文件維護。最近的錯誤記錄放在非易失性隨機存取存儲器里(NVRAM)。在系統啟動期間,當錯誤日志守護進程啟動后,這條最近的錯誤記錄就從 NVRAM 里讀入并添加到錯誤日志。
 
顯示系統錯誤日志,運行命令:errpt
清除系統錯誤日志,運行命令:errclear

4.15 srcmstr進程

運行命令:ps –ef | grep srcmstr,檢查srcmstr守護進程是否在運行,例如:
# ps -ef |grep srcmstr
root  159858       1   0   Jul 14      -  0:00 /usr/sbin/srcmstr
 
上面輸出信息表示srcmstr守護進程在運行。
 
srcmstr守護進程是系統資源控制器(SRC),srcmstr守護進程生成并控制子系統、處理子系統短狀態請求、向子系統傳遞請求并處理出錯通知。通常 srcmstr 守護進程通過使用 inittab 文件條目啟動。
 
列出所有子系統的狀態,請運行命令:
# lssrc  -a
 
列出tcpip組中子系統的所有實例的狀態,請運行命令:
# lssrc  -g tcpip

4.16 系統運行的應用

系統運行的應用請詢問系統管理員,并做記錄。
 

第5章 卷組、文件系統檢查

5.1 VG狀態

運行命令:lsvg vgname,檢查VG狀態,例如:
# lsvg rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  00cfd8fe00004c000000011b1d4ee4ef
VG STATE:           active                   PP SIZE:        128 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1092 (139776 megabytes)
MAX LVs:            256                      FREE PPs:       72 (9216 megabytes)
LVs:                16                       USED PPs:       1020 (130560 megabytes)
OPEN LVs:           15                       QUORUM:         1
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          0                        STALE PPs:      0
ACTIVE PVs:         2                        AUTO ON:        yes
MAX PPs per VG:     32512                                    
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable

5.2 rootvg鏡像

運行命令:lsvg –l vgname,檢查卷組是否鏡像,例如:
# lsvg –l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     128   256   2    open/syncd    N/A
hd8                 jfslog     1     2     2    open/syncd    N/A
hd4                 jfs        16    32    2    open/syncd    /
hd2                 jfs        32    64    2    open/syncd    /usr
hd9var              jfs        16    32    2    open/syncd    /var
hd3                 jfs        16    32    2    open/syncd    /tmp
hd10opt             jfs        1     2     2    open/syncd    /opt
lg_dumplv           sysdump    24    24    1    open/syncd    N/A
lv00                jfs        16    32    2    open/syncd    /ptf
informixlv          jfs2       16    32    2    open/syncd    /usr/informix
loglv00             jfs2log    1     2     2    open/syncd    N/A
fslv00              jfs2       8     16    2    closed/syncd  /tmpbak
templv              raw        8     16    2    closed/syncd  N/A
paging00            paging     128   256   2    open/syncd    N/A
 
PPs是LPs的兩倍,且PVs為2,表示LV做了鏡像。LV STATE為syncd表示鏡像是同步的,如果為STALE,則需要同步鏡像,請運行命令:
# syncvg –v rootvg
 
如果rootvg沒有做鏡像,需要手動做鏡像,其步驟如下:
# extendvg rootvg hdisk1
# mirrorvg -S rootvg hdisk1
# chvg -Qn rootvg
# bosboot -ad /dev/hdisk0
# bootlist -m normal hdisk0 hdisk1
 
備注:dump邏輯卷lg_dumplv不需要做鏡像。VG成功做完鏡像后,如果在VG里創建了一個新的LV,則需要單獨對LV進行鏡像。例如:
# mklv -y'testlv' -t'jfs2' rootvg 5 hdisk0
# mklvcopy testlv 2 hdisk1
# syncvg -v rootvg
 
單個LV鏡像前信息如下:
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     19    38    2    open/syncd    N/A
hd8                 jfs2log    1     2     2    open/syncd    N/A
hd4                 jfs2       4     8     2    open/syncd    /
hd2                 jfs2       32    64    2    open/syncd    /usr
hd9var              jfs2       32    64    2    open/syncd    /var
hd3                 jfs2       16    32    2    open/syncd    /tmp
hd1                 jfs2       32    64    2    open/syncd    /home
hd10opt             jfs2       32    64    2    open/syncd    /opt
fwdump              jfs2       3     6     2    open/syncd    /var/adm/ras/platform
paging00            paging     17    34    2    open/syncd    N/A
fslv00              jfs2       160   320   2    open/syncd    /oracle
loglv00             jfslog     1     2     2    open/syncd    N/A
lv00                jfs        80    160   2    open/syncd    /arch1
lv01                jfs        80    160   2    open/syncd    /arch2
testlv              jfs2       5     5     1    closed/syncd  N/A
 
單個LV成功鏡像后的信息如下:
# lsvg -l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     19    38    2    open/syncd    N/A
hd8                 jfs2log    1     2     2    open/syncd    N/A
hd4                 jfs2       4     8     2    open/syncd    /
hd2                 jfs2       32    64    2    open/syncd    /usr
hd9var              jfs2       32    64    2    open/syncd    /var
hd3                 jfs2       16    32    2    open/syncd    /tmp
hd1                 jfs2       32    64    2    open/syncd    /home
hd10opt             jfs2       32    64    2    open/syncd    /opt
fwdump              jfs2       3     6     2    open/syncd    /var/adm/ras/platform
paging00            paging     17    34    2    open/syncd    N/A
fslv00              jfs2       160   320   2    open/syncd    /oracle
loglv00             jfslog     1     2     2    open/syncd    N/A
lv00                jfs        80    160   2    open/syncd    /arch1
lv01                jfs        80    160   2    open/syncd    /arch2
testlv              jfs2       5     10    2    closed/syncd  N/A
 
運行命令:lsvg,檢查rootvg的Quorum為1,例如:
# lsvg rootvg
VOLUME GROUP:       rootvg                   VG IDENTIFIER:  00cfd8fe00004c000000011b1d4ee4ef
VG STATE:           active                   PP SIZE:        128 megabyte(s)
VG PERMISSION:      read/write               TOTAL PPs:      1092 (139776 megabytes)
MAX LVs:            256                      FREE PPs:       72 (9216 megabytes)
LVs:                16                       USED PPs:       1020 (130560 megabytes)
OPEN LVs:           15                       QUORUM:         1
TOTAL PVs:          2                        VG DESCRIPTORS: 3
STALE PVs:          0                        STALE PPs:      0
ACTIVE PVs:         2                        AUTO ON:        yes
MAX PPs per VG:     32512                                     
MAX PPs per PV:     1016                     MAX PVs:        32
LTG size (Dynamic): 256 kilobyte(s)          AUTO SYNC:      no
HOT SPARE:          no                       BB POLICY:      relocatable
 
rootvg做了鏡像,QUORUM必須是1,如果不為1,則運行下列命令進行糾正:
# chvg -Qn rootvg
# bosboot -ad /dev/hdisk0

5.3 文件系統信息

運行命令:df –k,檢查文件系統信息,例如:
# df -k
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4          2097152   2006072    5%    13236     3% /
/dev/hd2          2621440   1123508   58%    32019    12% /usr
/dev/hd9var       2097152   2054892    3%      606     1% /var
/dev/hd3          4194304   4145972    2%      209     1% /tmp
/dev/fwdump        393216    392828    1%        4     1% /var/adm/ras/platform
/dev/hd1         70713344  18760772   74%    46322     2% /home
/proc                   -         -    -         -     -  /proc
/dev/hd10opt       262144    151180   43%      709     3% /opt
/dev/fslv01      70713344  18760772   74%    46322     2% /u
 
當文件系統的使用率大于80%時,請注意觀察文件系統使用率的增長情況,如果在動態增加,請根據實際情況增加文件系統大小。當文件系統滿時,會影響系統或系統應用的使用。
 
手動增加文件系統大小:
# chfs –a size=+512M /var
動態把文件系統/var大小增加512M
 
手動減小文件系統大小(只適合于AIX 5.3或以后的版本):
# chfs –a size=-1G /u
動態把文件系統/u大小減小1G

第6章 網絡檢查

6.1 網卡狀態

運行命令:netstat –v,檢查網卡的狀態,例如:
# netstat –v en0

6.2 網卡IP地址

運行命令:ifconfig –a,檢查網卡IP地址設置,例如:
# ifconfig -a
en2: flags=5e080863,c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,PSEG,CHAIN>
        inet 64.1.35.25 netmask 0xffffff00 broadcast 64.1.35.255
         tcp_sendspace 131072 tcp_recvspace 65536
lo0: flags=e08084b<UP,BROADCAST,LOOPBACK,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT>
        inet 127.0.0.1 netmask 0xff000000 broadcast 127.255.255.255
        inet6 ::1/0
         tcp_sendspace 65536 tcp_recvspace 65536
 
網卡en2的IP地址為64.1.35.25,掩碼是255.255.255.0,處于UP狀態。

6.3 路由配置

運行命令:netstat -rn,檢查網絡路由設置,例如:
# netstat -rn
 
 
 

6.4 IP連通性

運行命令:ping ipaddress,測試網絡IP連通性,例如:
# ping 172.16.1.73
 
 
 

6.5 hosts文件

運行命令:cat /etc/hosts,檢查hosts文件是否有問題,例如:
# cat /etc/hosts
127.0.0.1               loopback localhost      # loopback (lo0) name/address
 
64.1.35.21  p550_1
64.1.35.22  qzsvr_3
 
/etc/hosts文件格式與上面輸出類似,如果格式不對,則會出現IP與主機名解析出錯。

第7章 HACMP檢查

7.1 I/O Pacing參數

運行命令:lsattr –El sys0,檢查I/O Pacing 高水平和低水平標記,例如:
# lsattr -El sys0 -a maxpout -a minpout
maxpout    33    HIGH water mark for pending write I/Os per file   True
minpout    24    LOW water mark for pending write I/Os per file    True
 
HACMP環境,建議maxpout值為33,minpout值為24

7.2 syncd參數

運行命令:grep syncd /sbin/rc.boot,檢查syncd參數,例如:
# grep syncd /sbin/rc.boot
nohup /usr/sbin/syncd 10 > /dev/null 2>&1 &
 
HACMP環境,建議syncd參數為10

7.3 HACMP版本

運行命令:lslpp –L cluster,檢查HACMP軟件版本,例如:
# lslpp –L cluster.*
  Fileset                      Level  State  Type  Description (Uninstaller)
  ----------------------------------------------------------------------------
  cluster.adt.es.client.include
                             5.4.1.0    C     F    ES Client Include Files
  cluster.adt.es.client.samples.clinfo
                             5.4.0.0    C     F    ES Client CLINFO Samples
  cluster.adt.es.client.samples.clstat
                             5.4.1.1    C     F    ES Client Clstat Samples
  cluster.adt.es.client.samples.libcl
                             5.4.0.0    C     F    ES Client LIBCL Samples
  cluster.adt.es.java.demo.monitor
                             5.4.0.0    C     F    ES Web Based Monitor Demo
  cluster.doc.en_US.es.html  5.4.0.0    C     F    HAES Web-based HTML
                                                   Documentation - U.S. English
  cluster.doc.en_US.es.pdf   5.4.1.0    C     F    HAES PDF Documentation - U.S.
                                                   English
  cluster.es.cfs.rte         5.4.1.2    C     F    ES Cluster File System Support
  cluster.es.client.lib      5.4.1.3    C     F    ES Client Libraries
  cluster.es.client.rte      5.4.1.3    C     F    ES Client Runtime
  cluster.es.client.utils    5.4.1.3    C     F    ES Client Utilities
  cluster.es.client.wsm      5.4.1.3    C     F    Web based Smit
  cluster.es.cspoc.cmds      5.4.1.3    C     F    ES CSPOC Commands
  cluster.es.cspoc.dsh       5.4.1.0    C     F    ES CSPOC dsh
  cluster.es.cspoc.rte       5.4.1.2    C     F    ES CSPOC Runtime Commands
  cluster.es.plugins.dhcp    5.4.0.0    C     F    ES Plugins - dhcp
  cluster.es.plugins.dns     5.4.0.0    C     F    ES Plugins - Name Server
  cluster.es.plugins.printserver
                             5.4.0.0    C     F    ES Plugins - Print Server
  cluster.es.server.cfgast   5.4.1.0    C     F    ES Two-Node Configuration
                                                   Assistant
  cluster.es.server.diag     5.4.1.3    C     F    ES Server Diags
  cluster.es.server.events   5.4.1.3    C     F    ES Server Events
  cluster.es.server.rte      5.4.1.3    C     F    ES Base Server Runtime
  cluster.es.server.testtool
                             5.4.1.0    C     F    ES Cluster Test Tool
  cluster.es.server.utils    5.4.1.3    C     F    ES Server Utilities
  cluster.es.worksheets      5.4.1.0    C     F    Online Planning Worksheets
  cluster.license            5.4.0.0    C     F    HACMP Electronic License
  cluster.man.en_US.es.data  5.4.1.3    C     F    ES Man Pages - U.S. English
  cluster.msg.en_US.cspoc    5.4.1.0    C     F    HACMP CSPOC Messages - U.S.
                                                   English
  cluster.msg.en_US.es.client
                             5.4.1.0    C     F    ES Client Messages - U.S.
                                                   English
  cluster.msg.en_US.es.server
                             5.4.1.2    C     F    ES Recovery Driver Messages -
                                                   U.S. English
 
根據上面命令的輸出,可以確定HACMP軟件版本為:5.4.1.3

7.4 HACMP日志

運行命令:cat /tmp/hacmp.out,檢查HACMP日志是否報錯,例如:
# cat /tmp/hacmp.out
 
仔細檢查hacmp.out文件中是否有報錯,如果有,請記錄錯誤信息,用于故障分析。
 
備注:HACMP 5.4或以后,hacmp.out文件保存在缺省目錄/var/hacmp/log

7.5 HACMP運行狀態

運行命令:/usr/es/sbin/cluster/clstat,檢查HACMP的運行狀態,例如:
# /usr/es/sbin/cluster/clstat
lstat - HACMP Cluster Status Monitor
                -------------------------------------
 
Cluster: mis_cluster01  (1229182960)
Sun Dec 14 03:26:29 BEIST 2008
                State: UP               Nodes: 2
                SubState: STABLE
 
        Node: H85               State: UP
           Interface: H85_boot2 (0)             Address: 172.16.32.2
                                                State:   UP
           Interface: H85_boot1 (0)             Address: 172.16.33.2
                                                State:   UP
           Interface: H85_tty0_01 (2)           Address: 0.0.0.0
                                                State:   UP
           Interface: H85_svc (0)               Address: 10.98.2.7
                                                State:   UP
           Resource Group: oracle_vg                    State:  On line
 
        Node: M85               State: UP
           Interface: M85_boot2 (0)             Address: 172.16.32.3
                                                State:   UP
           Interface: M85_boot1 (0)             Address: 172.16.33.3
                                                State:   UP
           Interface: M85_tty0_01 (2)           Address: 0.0.0.0
                                                State:   UP
           Resource Group: mis_vg                       State:  On line 
 
 
************************ f/forward, b/back, r/refresh, q/quit ************************
 
HACMP集群的運行狀態,正常情況下的輸出信息與上面類似,SubState為STABLE。

7.6 接管測試

Service IP接管測試,可以手動拔掉主網卡的網線。正常情況下,Service IP會漂移到備用網卡上。資源組的接管測試,只能通過模擬直接宕機主機或者運行命令:smitty clstop手動讓備用機接管主機,這種情況除了Service IP會切換到備機,資源組也會切換到備用機上。
如果發生Service IP或資源組不能切換的情況,則需要引起注意,HACMP有故障,需要處理。

第8章 系統備份檢查

當系統軟硬件發生改變后,請立即做好系統全備份。當發生rootvg損壞時,能夠及時使用系統備份進行恢復。例如:
檢查系統備份(rootvg備份)的歷史記錄,請運行命令:
# lsmksysb -B
#Device;Command;Date;Shrink Size;Full Size;Maintenance Level
/dev/rmt0;"mksysb -m -v -i /dev/rmt0";Thu Mar 29 17:08:56 BEIST 2007;12639;26368;5200-07
/dev/rmt0;"mksysb -m -i /dev/rmt0";Thu Jun 28 10:21:42 BEIDT 2007;12624;26368;5200-07
/dev/rmt0;"mksysb -m -i /dev/rmt0";Wed Jun  4 15:31:01 BEIDT 2008;13182;26368;5200-07
/dev/rmt0;"mksysb -m -i /dev/rmt0";Mon Feb 16 18:26:32 BEIST 2009;13379;26368;5200-07
 
從上面系統備份的歷史記錄可以看出,最近的一次系統備份時間是:Mon Feb 16 18:26:32 BEIST 2009
 
系統即使長期未做改變,最好是3個月也做一次系統備份。如果做巡檢時,發現系統未做系統備份,請提醒用戶,且同時幫用戶做一份系統備份,運行命令:
# mksysb –i /dev/rmt0
 
做好系統備份后,請在磁帶上做好標注,記錄的信息如下:
備份機器名稱           例:db1
備份機器序列號         例:10-12345
備份時間               例:2009年8月20日
 
備注:對于用戶數據,建議最好使用專業備份軟件進行每天定時備份。

第9章 系統錯誤檢查及故障診斷

9.1 檢查CPU

運行命令:lsdev -Cc processor和bindprocessor –q,檢查CPU是否正常,例如:
# lsdev -Cc processor
proc0         Available 00-00         Processor
proc2         Available 00-02         Processor
proc4         Available 00-04         Processor
proc6         Available 00-06         Processor
 
上面輸出信息表示系統有4個物理處理器可用。
 
# bindprocessor –q
The available processors are: 0 1 2 3 4 5 6 7
 
上面輸出信息表示系統有8個處理器可用。
 
備注:對于Power5或以后的機器,如果啟用了smtctl功能,則bindprocessor –q顯示的CPU數是lsdev -Cc processor顯示的CPU數的兩倍,即bindprocessor –q顯示的是邏輯CPU數,而bindprocessor –q顯示的是物理CPU數。

9.2 檢查內存

運行命令:lsattr -El mem0,檢查內存是否正常,例如:
# lsattr -El mem0
goodsize 1024 Amount of usable physical memory in Mbytes False
size     1024 Total amount of physical memory in Mbytes   False
 
對比一下,實際可用的物理內存和總的物理內存大小,檢查內存是否正常。

9.3 檢查內置硬盤

運行命令:lspv hdiskX,檢查內置硬盤是否正常,例如:
# lspv hdisk0
PHYSICAL VOLUME: hdisk0 VOLUME GROUP: rootvg
PV IDENTIFIER: 000ca13f7ebe3b7e VG IDENTIFIER 000ca13f7ebe3e67
PV STATE: active
STALE PARTITIONS: 0 ALLOCATABLE: yes
PP SIZE: 32 megabyte(s) LOGICAL VOLUMES: 11
TOTAL PPs: 542 (17344 megabytes) VG DESCRIPTORS: 2
FREE PPs: 217 (6944 megabytes) HOT SPARE: no
USED PPs: 325 (10400 megabytes)
FREE DISTRIBUTION: 108..20..00..00..89
USED DISTRIBUTION: 01..88..108..108..20
如果PV STATE為active,表示此硬盤處于活動狀態。另外,正常情況下,硬盤的“STALE PARTITIONS:”屬性值應該等于0。如果運行lspv不能正常顯示硬盤狀態,硬盤可能有故障,請運行errpt和diag命令對硬盤進行故障分析。

9.4 檢查內置磁帶機

運行命令:/usr/lpp/diagnostics/bin/utape -cd rmt0 –n,檢查 ,例如:
# /usr/lpp/diagnostics/bin/utape -cd rmt0 –n
 
顯示結果為磁帶機使用的小時數,若大于72小時,則無論磁帶機黃燈是否亮都應使用清潔帶清洗。
 

9.5 檢查郵件信息

運行命令:mail,檢查郵件里是否有發給root用戶的錯誤報告,例如:
# mail
? n
Message 130:
From root Tue Dec 12 05:02:06 2006
Date: Tue, 12 Dec 2006 05:02:06 +0800
From: root
To: ssa_adm
Subject: ssa0
 
Tue Dec 12 05:01:05 BEIST 2006
Error Log Analysis has detected error(s) that may require your attention.
ssa0 SRN 44004 IBM SSA 160 SerialRAID Adapter (14109100)
 
上面輸出信息表示在Tue Dec 12 05:01:05 BEIST 2006系統測檢到了一個硬件錯誤,出故障的硬件是一塊SSA卡,SRN錯誤號是44004。
 
運行?將顯示所有命令的幫助。

9.6 檢查系統日志

運行命令:errpt,檢查系統是否有錯誤發生過,例如:
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F7863CFE   0806170008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806160008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806150008 P H pdisk3         DISK OPERATION ERROR
FE9E9357   0806130008 P H ssa0           DISK OPERATION ERROR
 
上面命令將列出系統所有的簡短出錯信息。
TIMESTAMP: MMDDHHMMYY (月日時分年)
T 類型: P 永久; T 臨時; U 未知   永久性的錯誤應引起重視
C 分類: H 硬件; S 軟件; O 用戶; U未知
 
# errpt -d H 列出所有硬件出錯信息
# errpt -d S 列出所有軟件出錯信息
# errpt -aj IDENTIFIER 列出詳細出錯信息
 
# errpt –aj F7863CFE
---------------------------------------------------------------------------
LABEL:          SSA_DISK_ERR4
IDENTIFIER:     F7863CFE
 
Date/Time:       Wed Aug  6 17:00:15 BEIST 2008
Sequence Number: 12622
Machine Id:      000087124C00
Node Id:         statcq
Class:           H
Type:            PERM
Resource Name:   pdisk3         
Resource Class:  pdisk
Resource Type:   scsd
Location:        USSAPICC-D2
VPD:            
        Manufacturer................IBM    
        Machine Type and Model......DGHC09B
        Part Number.................09L4295    
        ROS Level and ID............9908
        Serial Number...............681A01CBGA
        EC Level....................F23980   
        Device Specific.(Z2)........CUSMA908 
        Device Specific.(Z3)........09L4295    
        Device Specific.(Z4)........98312
 
Description
DISK OPERATION ERROR
 
Probable Causes
DASD DEVICE
 
Failure Causes
DISK DRIVE
 
        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES
 
Detail Data
SENSE DATA
7000 0200 0000 0018 0000 0000 3100 0100 0000 0000 0111 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
 
當系統發生硬件故障時,請根據具體的實際情況運行diag命令對硬件進行診斷。如果發生的是軟件故障,請詳細查看錯誤信息后,對錯誤信息進行分析。

9.7 硬件故障診斷

運行命令:diag,對故障硬件進行診斷,例如:
# errpt
IDENTIFIER TIMESTAMP  T C RESOURCE_NAME  DESCRIPTION
F7863CFE   0806170008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806160008 P H pdisk3         DISK OPERATION ERROR
F7863CFE   0806150008 P H pdisk3         DISK OPERATION ERROR
FE9E9357   0806130008 P H ssa0           DISK OPERATION ERROR
 
上面輸出表示pdisk3有硬件故障,則需要運行diag進行故障分析,步驟如下:
# diag
-> 選高級診斷(Advance Diagnostic)
-> 選問題診斷Problem Determination)或選系統檢查System Verification)
 
(選PD會對系統錯誤記錄進行分析)
diag運行后會給出SRN代碼故障、設備名稱及地址代碼等。對于PCI機型應在系統報錯7天之內運行diag程序對出錯記錄里的sense數據進行分析。
 
如果要診斷系統所有硬件部件,則運行:
# diag
-> Enter
-> Advanced Diagnostics Routines
-> System Verification
-> All Resources
-> F7
輸出結果為:No trouble was found,表示系統硬件無故障,運行正常。
 
備注: 運行diag對系統所有的資源進行診斷,可能對系統會有影響。為了防止對主機應用的正常運行造成影響,防止某些部件測試失敗時造成應用停止,執行diag診斷最好是在應用停止的情況下進行。
 
當巡檢完畢,系統運行正常,沒有故障,或者系統有故障,處理掉故障后,請運行命令:errclear 0,清除系統錯誤日志。
 

9.8 檢查啟動時間

運行命令:who –b、date和uptime,檢查系統的啟動時間,例如:
# who -b
   .        system boot Jan 21 18:42
                  
# date
Wed Feb 11 17:13:48 CST 2009
 
# uptime
  05:13PM   up 20 days,  22:31,  579 users,  load average: 3.63, 3.35, 3.27
 
上面3條命令的輸出,可以確定系統的啟動時間是: 2009 Jan 21 18:42

9.9 檢查啟動日志

運行命令:alog -o -t boot,檢查系統的啟動日志是否正常,例如:
# alog -o -t boot
......
****************** no stderr ***********
----------------
calling savebase
return code = 0
****************** no stdout ***********
****************** no stderr ***********
cfgmgr: 0514-621 WARNING: The following device packages are required for
        device support but are not currently installed.
devices.fcp.changer
Configuration time: 28 seconds
Starting AIX Windows Desktop.....
......
 
上面輸出的信息中,有一條告警信息:cfgmgr: 0514-621 WARNING。

9.10 檢查SP日志

如果有必要,請登錄到Service Processor檢查SP日志。

第10章 性能檢查

10.1 CPU性能

運行命令:sar -P ALL 1 10,檢查CPU的使用率,確定是否有CPU瓶頸故障,例如:
# sar -u 1 10
AIX mscp01 1 5 0001AC2F4C00    09/06/05
12:40:58    %usr    %sys    %wio   %idle
12:40:59       0       0       0     100
12:41:00       0       1       0      99
12:41:01       0       1       0      99
12:41:02       0       0       0     100
12:41:03       0       0       0     100
12:41:04       0       0       0     100
12:41:05       0       8      18      74
12:41:06       0       0       0     100
12:41:07       0       2       3      95
12:41:08       0       3       6      91
Average        0       1       3      96
 
當%user + %sys大于80%時,則系統有CPU性能瓶頸。
 
語法:
sar -[abckmqruvwyA] inteval repetition
-b buffer 活動
-c 系統調用
-k 內核進程統計
-m 消息及信號量活動
-q 正在運行的隊列數及等待隊列數
-r 頁交換統計
-u CPU利用
-P CPU負載

10.2 內存性能

運行命令:vmstat 1 10,檢查系統是否有內存瓶頸,例如:
# vmstat 1
System configuration: lcpu=2 mem=3920MB
 
kthr    memory                page              faults          cpu   
-----  -----------    ------------------------ ------------  -----------
r  b    avm   fre    re  pi  po  fr   sr  cy  in   sy  cs   us sy id wa
0  0  229367 332745   0   0   0   0    0   0   3  198  69    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   3   33  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   33  68    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0  80  306 100    0  1 97  1
0  0  229367 332745   0   0   0   0    0   0   1   20  68    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   36  64    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   33  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   21  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   1  237  64    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   2   19  66    0  0 99  0
0  0  229367 332745   0   0   0   0    0   0   6   37  76    0  0 99  0
 
當po數持續大于0時,表示有內存換頁到換頁空間,則系統有內存瓶頸。
 
說明:
r:正在運行的進程
b:被阻擋的進程
avm:活動的虛內存,單位4kb
fre:自由列表,位4kb
po:頁換出
pi:頁換入
sy:系統占用CPU
id:空閑CPU
wa:等待的CPU

10.3 I/O性能

運行命令:iostat 1 10,檢查系統是否有I/O瓶頸,例如:
# iostat 1 10
tty:      tin         tout   avg-cpu:  % user    % sys     % idle    % iowait
          0.5         27.2               0.1      1.2       97.5       1.2
Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk0           0.0       0.0       0.0         64     18596
hdisk1           0.0       0.0       0.0          0     18584
hdisk5           0.0       0.0       0.0          0         0
hdisk2           0.0       0.0       0.0          0         0
hdisk7           0.0       0.0       0.0          0         0
hdisk6           0.0       0.0       0.0          0         0
hdisk4           0.0       0.0       0.0          0         0
hdisk3           0.0       0.0       0.0          0         0
hdisk8           0.0       0.0       0.0          0         0
cd0              0.0       0.0       0.0          0         0
 
當%iowait大于30%,%tm_act大于60%,則系統有I/O瓶頸。
 
命令語法:
iostat [-t] [-d] [devices] [interval] [count]
 
-t 參數可以報告TTY和CPU的統計信息
-d 參數可以報告磁盤的統計信息
-t 參數和-d 參數不能同時使用
 
iostat [interval] [count]
 
iostat后面跟時間間隔和顯示次數可以周期性地報告TTY、CPU和磁盤的統計信息。

10.4 LPAR分區性能

運行命令:lparstat 1 10 ,例如:
# lparstat -h 1 5
System configuration: type=Dedicated mode=Capped smt=On lcpu=4 mem=3920
 
%user  %sys  %wait  %idle  %hypv hcalls
-----  ----  -----  -----  ----- ------
  0.0   0.7    0.0   99.3   44.4 5933918
  0.4   0.3    0.0   99.3   44.9 5898086
  0.0   0.1    0.0   99.9   45.1 5930473
  0.0   0.1    0.0   99.9   44.6 5931287
  0.0   0.1    0.0   99.9   44.6 5931274
 
檢查%user+%sys的使用率是否大于80%

10.5 topas性能監控

運行命令:topas,可以綜合檢查系統的CPU、內存、I/O性能,例如:
# topas
Topas Monitor for host:    p590lp3              EVENTS/QUEUES    FILE/TTY
Thu Jun  1 10:22:40 2006   Interval:  2         Cswitch     821  Readch   207.9K
                                                Syscall   11283  Writech  241.8K
Kernel    1.9   |#                           |  Reads       483  Rawin         0
User     28.8   |#########                   |  Writes     3359  Ttyout   103.3K
Wait      0.0   |#                           |  Forks         0  Igets         0
Idle     69.3   |####################        |  Execs         0  Namei      1496
Physc =  1.30                     %Entc=  32.4  Runqueue    0.5  Dirblk        0
                                                Waitqueue   0.0
Network  KBPS   I-Pack  O-Pack   KB-In  KB-Out
lo0     301.8    274.8   274.8   150.9   150.9  PAGING           MEMORY
en1     259.0    281.3   135.2    31.8   227.2  Faults       35  Real,MB    8191
en2       0.0      0.0     0.0     0.0     0.0  Steals        0  % Comp     79.1
                                                PgspIn        0  % Noncomp  11.9
Disk    Busy%     KBPS     TPS KB-Read KB-Writ  PgspOut       0  % Client    7.1
hdisk0    3.9    140.4    12.0     4.0   136.4  PageIn        0
hdisk1    3.9    136.4    11.0     0.0   136.4  PageOut      33  PAGING SPACE
                                                Sios         10  Size,MB    4096
Name            PID  CPU%  PgSp Owner                            % Used     10.3
java         393288   6.4 247.9 weblogic        NFS (calls/sec)  % Free     89.6
java         335958   1.4 1146.1 weblogic       ServerV2       0
java         249876   0.5 251.2 weblogicc       ClientV2       0   Press:
topas        303294   0.0   1.2 root            ServerV3       0   "h" for help
tail         368718   0.0   0.2 weblogic        ClientV3       0   "q" to quit
gil           61470   0.0   0.1 root
aixmibd       90270   0.0   0.6 root
rpc.lock     262274   0.0   0.2 root
pilegc        36882   0.0   0.1 root
netm          57372   0.0   0.0 root
syncd        118890   0.0   0.5 root
xmgc          40980   0.0   0.0 root
IBM.Sens     311456   0.0   1.7 root
lrud          16392   0.0   0.1 root
rmcd         266374   0.0   2.8 root
IBM.CSMA     290962   0.0   2.7 root
IBM.DMSR     233636   0.0   3.6 root
shlap64       98356   0.0   0.1 root
srcmstr      106688   0.0   0.8 root

10.6 換頁空間使用率

運行命令:lsps -a,檢查換頁空間的使用率是否正常,例如:
# lsps -a
Page Space  Physical Volume   Volume Group  Size   %Used  Active  Auto  Type
hd6         hdisk0            rootvg        2048MB   30    yes     yes    lv
paging00    hdisk1            rootvg        2048MB   30    yes     yes    lv
 
從上面輸出信息可以看出,換頁空間的使用率是30%。當換頁空間的使用率超過70%時,需要引起注意,系統可能有內存瓶頸或其它故障。
 

第11章 其它檢查

11.1 CDE登錄

在PC機或筆記本電腦上安裝一個圖形終端仿真軟件Xmanager,然后測試登錄CDE圖形桌面或XTERM,看是否正常。
備注:如果用戶的應用不需要圖形環境或用戶管理AIX不需要圖形環境,則可以不用檢查此項。

11.2 遠程登錄

使用一個字符終端仿真軟件,通過IP網路連接到AIX,檢查是否能正常登錄。

11.3 機器清潔狀況

主要檢查機器的進風口和出風口是否積滿了很多灰塵。

11.4 微碼升級

檢查機器的微碼,看是否需要升級。如果機器能正常工作,建議一般情況下不需要升級機器的微碼。

11.5 系統補丁升級

檢查AIX操作系統補丁,看是否需要升級。如果系統能正常運行,建議一般情況下不需要升級操作系統補丁。

11.6 系統信息收集

如果系統運行正常,不需要運行snap命令收集系統信息。只有系統運行不正常,且現場解決不掉故障的情況下,才需要運行snap –ac 收集系統信息。
 

繼續瀏覽
公司新聞
廣州裕鼎通過系統集成(三級)認證資質 2017-07-05
2013年華南地區醫療行業網絡大會 2015-12-10
回顧:2012寧波行業會議 2015-12-10
慶祝鑫鼎公司2012年年會圓滿結束 2015-12-10
喜訊:班尼路與鑫鼎公司成為合作伙伴 2015-12-10
IT科技前沿
百分點深入探討大數據價值挖掘之道 2016-06-01
16路、32路還是64路?真的是越高越好嗎? 2016-06-01
硅谷大數據:什么是 “改變世界” 的大數據公司 2016-05-11
有三十萬可商用圖片的PIXABAY+圖片搜索引擎 2016-03-09
李開復:我在硅谷看到的最前沿科技趨勢 2016-03-09
簽約新聞
恭喜鑫鼎公司中標上海某總站服務器及數據庫維保項目 2016-05-19
鑫鼎公司中標瑞安人民醫院維護項目 2016-03-15
裕鼎公司中標深圳移動存儲維護項目 2016-03-15
裕鼎公司中標某航空集團服務器維保項目 2016-03-15
鑫鼎公司與TCL移動簽訂計算機設備維護協議 2016-03-03
行業新聞
領跑市場——華為服務器再現里程碑 2016-06-01
IBM & VMware戰略合作加速打造混合云 2016-05-09
IBM把數據區塊鏈框架搬上云端 2016-05-09
IBM轉型之路:分析優先 認知為王 2016-05-09
訪SUSE總裁:軟硬結合將開源進行到底 2016-05-09




怎么用番号下载视频