Oracle 10g RAC 节点自动重启故障处理

2014-11-24 17:17:58 · 作者: · 浏览: 0

Jul 03 08:16:34.702 | INF | monitoring started with timeout(1000), margin(500), skewTimeout(125)
Jul 03 08:16:34.704 | INF | fatal mode startup, setting process to fatal mode


可以看到看到oprocd进程的时间间隔设置为


timeout(1000), margin(500), skewTimeout(125)


查看其它的日志信息,没有发现明显的错误信息,因此怀疑是oprocd的时间参数设置不当。

修改参数如下:


#crsctl set css diagwait 13 -force


修改参数时,需要注意如下几个事项

当我们设置diagwait参数时,需要停止所有rac节点的集群活动,停止顺序如下(如果集群式活动的,修改diagwait有可能会损害ocr):

1,以root用户在所有节点执行


#crsctl stop crs
#/bin/oprocd stop


2,确认所有节点的进程已经停止


#ps -ef |egrep "crsd.bin|ocssd.bin|evmd.bin|oprocd"


3,修改参数,仅仅在一个节点修改就可以了


#crsctl set css diagwait 13 -force


4,查看参数修改情况


#crsctl get css diagwait


5,启动集群节点


#crsctl start crs
#crsctl check crs


修改参数后,集群服务运行正常,没有再自动重启过。


--------------------------------------------------------------------------------


--------------------------------------------------------------------------------