Oracle Restart从职责上负责两方面的功能,一个是Oracle各个服务组件的自动启动。鉴于组件间复杂的依赖关系,使用Restart自动的进行启动顺序调节是比较好的一种策略。另一个功能是高可用支持,如果某一个组件意外被终止运行,比如异常中断,Oracle Restart是可以定期的检查“治下”组件的生存情况,一旦检查出问题就会进行自动的启动。
目前单实例Oracle使用Oracle Restart支持的组件内容有:监听器Listener、Oracle实例和数据库、ASM实例、ASM磁盘组、数据库服务Service和ONS(OracleNotification Service)。
本篇记录笔者遇到的一个故障场景,不甚复杂,和行业大牛们大作不敢相比。权当思路记录,留待需要的朋友不时之需。
1、问题故障出现
在一台11gR2的Oracle上,笔者部署了单实例ASM实例和磁盘组结构,并且在上面部署了SingleInstance Oracle。由于是测试使用,笔者在上面进行过一些测试和实验,今天启动服务器之后,发现问题。
grid@SimpleLinux simplelinux]$ uptime
13:58:13 up 2:24, 1 user, load average: 0.03, 0.02, 0.00
[grid@SimpleLinux simplelinux]$ ps -ef |grep pmon
grid 3212 1 0 11:35 00:00:01 asm_pmon_+ASM
grid 27724 27685 0 13:58 pts/0 00:00:00 grep pmon
根据标准的Oracle Restart配置,ASM实例、ASM磁盘组和数据库实例都是在Restart管理范围,应该是随着服务器启动而自动启动。但是从实际情况看,ASM实例已经自动启动,数据库实例没有启动。
同RAC结构一样,Restart也是借助服务器启动过程中,以ohasd为首的高可用守护进程进行步步启动动作。
这种情况下,查看日志信息是最好的选择,看看那个环节出现问题。
[grid@SimpleLinux simplelinux]$ pwd
/u01/app/grid/product/11.2.0/grid/log/simplelinux
[grid@SimpleLinux simplelinux]$ ls -l |grep alert
-rw-rw---- 1 grid oinstall 14494Oct 17 11:35 alertsimplelinux.log
对grid和clusterware的日志,都是保留在$ORACLE_HOME/log下的目录从中。Alert
[ohasd(2744)]CRS-2767:Resource staterecovery not attempted for 'ora.diskmon' as its target state is OFFLINE
2013-10-17 11:35:34.373
[cssd(3130)]CRS-1601:CSSD Reconfigurationcomplete. Active nodes are simplelinux .
2013-10-17 11:35:50.094
[/u01/app/grid/product/11.2.0/grid/bin/oraagent.bin(3072)]CRS-5010:Updateof configuration file "/u01/app/oracle/product/11.2.0/db_1/dbs/initora11g.ora"failed: details at "(:CLSN00014:)" in"/u01/app/grid/product/11.2.0/grid/log/simplelinux/agent/ohasd/oraagent_grid/oraagent_grid.log"
2013-10-17 11:35:55.645
[/u01/app/grid/product/11.2.0/grid/bin/oraagent.bin(3072)]CRS-5010:Updateof configuration file"/u01/app/oracle/product/11.2.0/db_1/dbs/initora11g.ora" failed:details at "(:CLSN00014:)" in"/u01/app/grid/product/11.2.0/grid/log/simplelinux/agent/ohasd/oraagent_grid/oraagent_grid.log"
2013-10-17 11:35:55.806
[ohasd(2744)]CRS-2807:Resource'ora.ora11g.db' failed to start automatically.
我们定位到了问题片段,从上面标红的内容看。Clusterware在启动dismon服务之后,试图启动数据库,也就是ora.ora11g.db。在访问一个参数文件(注意是pfile)过程中,发现问题。
进一步检查指出的oraagent_grid.log日志,也没有过多的信息提示。
2013-10-17 11:35:50.049:[ora.ora11g.db][3013430160] {0:0:2} [start] sclsnInstAgent::sUpdateOratab fileupdated with dbName ora11g value /u01/app/oracle/product/11.2.0/db_1:N
2013-10-17 11:35:50.049:[ora.ora11g.db][3013430160] {0:0:2} [start] sclsnInstAgent::sUpdateOratab CSSunlock
2013-10-17 11:35:50.090:[ora.ora11g.db][3013430160] {0:0:2} [start] (:CLSN00014:)Failed to open file/u01/app/oracle/product/11.2.0/db_1/dbs/initora11g.ora
2013-10-17 11:35:50.091: [ AGENT][3013430160] {0:0:2}UserErrorException: Locale is
2013-10-17 11:35:50.091:[ora.ora11g.db][3013430160] {0:0:2} [start] clsnUtils::error Exception type=2string=
CRS-5010: Update of configuration file"/u01/app/oracle/product/11.2.0/db_1/dbs/initora11g.ora" failed:details at "(:CLSN00014:)" in "/u01/app/grid/product/11.2.0/grid/log/simplelinux/agent/ohasd/oraagent_g