因为diagwait未配置导致RAC脑裂日志记录不完整的分析案例

2015-02-25 15:02:42 · 作者: · 浏览: 32

? ? 一个RAC,CRS版本为10.2.0.4,在第二节点DOWN机后,第一节点也相继DOWN机。


CRS_LOG


从2014-07-04 22:49:46.561直接跳到03:00:08.142? ,中间没有了其它记录,实际上集群发生分裂的日志并没有写完整,如节点驱促信息,与集群重构信息


? ? ? ?从2014-07-04 23:00:25.016直接跳到01:21:06.620? ,中间没有了其它记录,实际上集群发生分裂的日志并没有写完整,如节点驱促信息,与集群重构信息


? ? ? ?两个节点的重启日志都没有写完整就发生了操作系统的重启,二节点的驱促信息都没有来得及发送到一节点,致使一节点并不知道二节点已经消失,然后一节点也去通过心跳线ping二节点,发现与二节点心跳存在异常,一节点重启原因由于缺少操作系统性能监控数据支持(如服务器当时负载是否很高)以及日志的不完整难以断定重启的真正原因。


问题:两个节点配置相同,对diagwait均未配置


? ? 该问题只会出现在ORACLE 11.2以前版本中,在 11G R2版本中,diagwait的值默认配置为13? ?


? ? 针对11.2以前的版本,需要手工将diagwait修改为13,以推迟重启的时间便于将缓存中的日志信息有足够的时间写入到磁盘文件中,以及减少因为与OS交互允许时间太短而造成的重启可能。