1 问题现象
在CentOS 6.8 的平台安装的11.2.0.4 的RAC, 安装过程没有问题,但是重启OS后,RAC 集群无法正常启动。
SSH 远程对方hang:
[root@cndba2 ~]#date;ssh cndba1 date
[root@cndba2 ~]# cat /etc/sysconfig/network-scripts/ifcfg-bond0
DEVICE=bond0
BOOTPROTO=none
BONDING_OPTS="miimon=100,mode=1"
IPADDR=198.198.198.32
PREFIX=24
GATEWAY=198.198.198.254
ONBOOT=yes
[root@cndba2 ~]# cat /etc/sysconfig/network-scripts/ifcfg-bond1
DEVICE=bond1
BOOTPROTO=none
BONDING_OPTS="miimon=100,mode=1"
IPADDR=1.1.1.32
PREFIX=24
ONBOOT=yes
[root@cndba2 ~]#
使用以下命令重启network服务,或者重启OS,导致无法通过ssh远程登录系统,Hang 住,无报错。
systemctl restart network
2 问题分析
bond0:业务网络
bond1: Oracle RAC心跳网络
当重启network服务时(systemctl restart network),系统messages日志中无明显异常。
当停止NetworkManager服务后,问题现象消失,即执行如下操作:
systemctl stop NetworkManager
此时再次重启network服务:
systemctl restart network
可以很快ping通bond0的业务地址。
进一步分析发现,如果不停止NetworkManager服务,而是修改网卡配置文件,在bonding网卡和组成bonding的slave网卡的配置文件中增加一行配置,也可以解决该问题。
NM_CONTROLLED=no
参考红帽RHEL7配置网卡bonding的官方文档:
官方文档的配置示例中设置了NM_CONTROLLED=”no”:
3 解决方法
该问题是由于NetworkManager服务引起,可以通过如下两种方法解决:
在网卡配置文件中增加参数NM_CONTROLLED=no(“no”的引号可以不写),设置后重启network服务生效。设置NM_CONTROLLED=no的目的是将网络设备脱离NetworkManager服务的管理,设置后该网络设备仅由network服务管理,不受NetworkManager服务控制,因而nmcli命令对该网络设备不再生效;
停止并禁用NetworkManager服务,停用后所有网络设备由network服务管理,不能通过nmcli命令来管理网络设备:
# systemctl stop NetworkManager # systemctl disable NetworkManager
版权声明:本文为博主原创文章,未经博主允许不得转载。