Exadata上精彩的硬件告警(准确的说,应该是SUN ILOM的)

联系:QQ(5163721)

标题:Exadata上精彩的硬件告警(准确的说,应该是SUN ILOM的)

作者:Lunar©版权所有[文章允许转载,但必须以链接方式注明源地址,否则追究法律责任.]

昨天Exadata上发出了一封靓丽的告警邮件,如下图:


1


2


3


没见过这么漂亮的邮件,清晰的告诉你是什么部件(可惜我还不认识那个大大的就是CPU……汗……)
又惊又喜的傻Lunar以为硬件坏了,高兴的是,SUN的ILOM的告警做的真棒啊
但是奇怪的是才用了没多久啊,而且比较爱惜的,怎么回事?
后来,在oracle官网搜索这个硬件, 发现是CPU边上的一个部件,貌似PCIe“故障”了。系统组的同事log了SR,等待回复。
晚上回家,按照以往的管理,我也到ILOM上搜索了一下,然后按照官方文档收集了ILOM的snapshot和一些必要信息传到SR上,SR的回复我没看懂:


8


也就是说,33%的可能是是硬件损坏……
在oracle官网找到如下方法判断,下面的输出是ILOM 3.2以上的输出(老版本的输出本文后面有例子)

-> start /SP/faultmgmt/shell
Are you sure you want to start /SP/faultmgmt/shell (y/n)? y

faultmgmtsp> fmadm faulty
------------------- ------------------------------------ -------------- --------
Time                UUID                                 msgid          Severity
------------------- ------------------------------------ -------------- --------
2015-04-20/15:13:42 xxxxxxx-xxxxx-xxxx-xxx-xxxxxxxxx xxxX86A-xxxx-xxx Critical    

Problem Status    : open
Diag Engine       : fdd 1.0
System           
   Manufacturer   : Oracle Corporation
   Name           : Exadata X5-2        
   Part_Number    : Exadata X5-2


System Component 
   Manufacturer   : Oracle Corporation
   Name           : ORACLE SERVER X5-2


----------------------------------------
Suspect 1 of 3
   Fault class  : fault.io.intel.iio.pcie-fatal
   Certainty    : 33%
   Affects      : /SYS/MB/RISER2/PCIE2   ----------这个就是文档中说的那个拗口的“PCIe 竖隔板”,2表示槽位2
   Status       : faulted

   FRU                 
      Status            : faulty
      Location          : /SYS/MB/RISER2/PCIE2
      Chassis          
         Manufacturer   : Oracle Corporation
         Name           : ORACLE SERVER X5-2

----------------------------------------
Suspect 2 of 3
   Fault class  : fault.io.intel.iio.pcie-fatal
   Certainty    : 33%
   Affects      : /SYS/MB/P0   ------------这个表示是CPU
   Status       : faulted

   FRU                 
      Status            : faulty
      Location          : /SYS/MB/P0
      Name              : Intel(R) Xeon(R) CPU E5-2699 v3 @ 2.30GHz

      Chassis          
         Manufacturer   : Oracle Corporation
         Name           : ORACLE SERVER X5-2

----------------------------------------
Suspect 3 of 3
   Fault class  : fault.io.intel.iio.pcie-fatal
   Certainty    : 33%
   Affects      : /SYS/MB   -------------这个表示是主板
   Status       : faulted

   FRU                 
      Status            : faulty
      Location          : /SYS/MB
      Manufacturer      : MiTAC International Corporation
      Name              : ASM,MOTHERBOARD,1U

      Chassis          
         Manufacturer   : Oracle Corporation

Description : An integrated I/O (II0) fatal error in a downstream PCIE
              device has been detected.

Response    : The service-required LED on the chassis is illuminated.

Impact      : The server will reset, however the affected processor is not
              disabled to allow the host OS to boot up and operate in the
              presence of a faulty processor.

Action      : Please refer to the associated reference document at
              http://support.oracle.com/msg/SPX86A-8002-RK for the latest
              service procedures and policies regarding this diagnosis.

faultmgmtsp> 

收集的信息,跟SR上老外的回复差不多,也是每个部件都有33%的可能性是硬件损坏……


8


按照以往的理解,猜测是“先兆损坏”,通常这种情况,工程师可能会把硬件进行一次插拔,如果没问题就算了,如果有问题,可能就是硬件损坏。
于是又到ILOM上检查,什么硬件,根据文档说明和ILOM的指示,大概知道是什么东西了(虽然每个东西长什么样子,我没见过……基本上从毕业后就没有拆过机箱,摸过螺丝的Lunar感觉很无奈……):
.
/SYS/MB ————-这个表示是主板
/SYS/MB/P0 ————这个表示是CPU
/SYS/MB/RISER2/PCIE2 ———-这个就是文档中说的那个拗口的“PCIe 竖隔板”,2表示槽位2
.
找到硬件工程师问了一下,这个问题是因为我们插入万兆模块的时候,报的告警,不过奇怪的是为什么oracle文档中没有写明“更换万兆模块需要关机?”


5


6


行了,知道了不是硬件问题,clear即可,这个文档上有,照做即可:

-> start /SP/faultmgmt/shell
Are you sure you want to start /SP/faultmgmt/shell (y/n)? y

faultmgmtsp> fmadm repair xxxxxxxx-xxxx-xxxxxx-xxxxxxxxx
faultmgmtsp> fmadm repair /SYS/MB
faultmgmtsp> 

检查清除结果:

faultmgmtsp> fmadm faulty
No faults found
faultmgmtsp> 

9


顺便介绍一下老版本的ILOM输出(ILOM 3.2以前):
—举例1: 输出类似 FRU : /SYS/FANBD/FM0,这个就指出了损坏的FRU是具体对应到主机上的哪一个物理组件(full physical path)
—“/SYS” 底架(chassis),我理解可能是主机架,就是拆开挡板后,所有东西都插在上面的那个主机箱的含义。
—“FANBD” 风扇模块 (fan board)
—“FM0” 具体哪一个风扇模块(Fan Module)
.
—举例2: 输出类似 FRU : /SYS/MB,这个就指出了损坏的FRU是具体对应到主机上的哪一个物理组件(full physical path)
—“/SYS” 底架(chassis),我理解可能是主机架,就是拆开挡板后,所有东西都插在上面的那个主机箱的含义。
—‘/MB’ 表示主板( Mother Board)

此条目发表在 Database 分类目录,贴了 , , , , 标签。将固定链接加入收藏夹。

发表评论

电子邮件地址不会被公开。 必填项已用 * 标注