通过Python收集MySQLMHA部署及运行状态信息的功能实现

database

一. 背景介绍 

当集团的MySQL数据库实例数达到2000+、MHA集群规模数百个时,对MHA的及时、高效管理是DBA必须面对的一个挑战。MHA 集群 节点信息 和 运行状态 是管理的基础。本篇幅主要介绍如何通过Python实现收集MHA 集群 节点信息 和 运行状态的功能。这些信息将是CMDB信息的重要组成部分。

MHA集群数百个,MHA Manager 节点 十几个,一个MHA Manager 节点管理着50-60个集群。 我们希望开发的程序,只在这十几个MHA Manager 节点部署运行,就可以收集到所需的所有 MHA Server 节点信息、VIP 信息、运行状态信息及其他信息,并且将收集到的数据保存到MySQL 数据库中。

二.实现逻辑 

 2.1 程序调用的MHA工具程序或文件

 

工具程序或文件 

功能 

 mha_appxxx.cnf 配置文件

1.从这个文件中 提取 Server 信息(Server IP);

2.提取 FailOver Script 和 Online Change Script的文件。  

 appxxx_master_ip_failover 脚本文件

 提取定义的VIP,和其他处收集到的VIP,进行横向比较,防止配置出错。

 appxxx_master_ip_online_change 脚本文件

 提取定义的VIP,横向比较防止配置出错。

 masterha_check_repl 工具程序

1.检查MySQL复制状况;

2.解析当前主节点IP;

3.解析 slave 节点IP;

4.解析出VIP。

masterha_check_status

检测当前MHA运行状态(运行OK还是stop)。

 为便于理解,我们贴上 mha_appxxx.cnf 的内容。

[server default]

manager_workdir=/var/log/masterha/app1.log //设置manager的工作目录

manager_log=/var/log/masterha/app1/manager.log //设置manager的日志

master_binlog_dir=/data/mysql //设置master 保存binlog的位置,以便MHA可以找到master的日志,我这里的也就是mysql的数据目录

master_ip_failover_script= /usr/local/bin/appxxx_master_ip_failover //设置自动failover时候的切换脚本

master_ip_online_change_script= /usr/local/bin/appxxx_master_ip_online_change //设置手动切换时候的切换脚本

password=用户密码//设置mysql中root用户的密码,这个密码是前文中创建监控用户的那个密码

user=root 设置监控用户root

ping_interval=1//设置监控主库,发送ping包的时间间隔,默认是3秒,尝试三次没有回应的时候自动进行railover

remote_workdir=/tmp //设置远端mysql在发生切换时binlog的保存位置

repl_password=用户密码 //设置复制用户的密码

repl_user=repl //设置复制环境中的复制用户名

report_script=/usr/local/send_report //设置发生切换后发送的报警的脚本

shutdown_script=""//设置故障发生后关闭故障主机脚本(该脚本的主要作用是关闭主机放在发生脑裂,这里没有使用)

ssh_user=root //设置ssh的登录用户名

[server1]

hostname=110.110.110.50

port=3306

[server2]

hostname=110.110.110.60

port=3306

candidate_master=1//设置为候选master,如果设置该参数以后,发生主从切换以后将会将此从库提升为主库,即使这个主库不是集群中事件最新的slave

check_repl_delay=0//默认情况下如果一个slave落后master 100M的relay logs的话,MHA将不会选择该slave作为一个新的master,因为对于这个slave的恢复需要花费很长时间,通过设置check_repl_delay=0,MHA触发切换在选择一个新的master的时候将会忽略复制延时,这个参数对于设置了candidate_master=1的主机非常有用,因为这个候选主在切换的过程中一定是新的master

[server3]

hostname=110.110.110.70

port=3306

 2.程序简单的流程图

 

 因是简单流程图,其中判断及异常未在图中标明。

三.主要代码实现

3.1.创建保存收集信息的表

表命名为mysqldb_mha_info,其create 脚本如下:

createtable `mysqldb_mha_info` (

`id` int(11) NOTNULL AUTO_INCREMENT,

mha_manager_ip varchar(50) NOTNULLDEFAULT"" COMMENT "MHA管理节点所在集群的IP",

mha_name varchar(50) NOTNULLDEFAULT"" COMMENT "MHA的名字,类似于副本集",

mha_file_name varchar(250) NOTNULLDEFAULT"" COMMENT "MHA .cnf 配置文件名字",

mha_name_path varchar(250) NOTNULLDEFAULT"" COMMENT "MHA .cnf 配置文件路径和名字",

`cnf_server1_ip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA cnf 配置文件中的节点1",

`cnf_server2_ip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA cnf 配置文件中的节点2",

`cnf_server3_ip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA cnf 配置文件中的节点3",

failover_script varchar(250) NOTNULLDEFAULT"" COMMENT "MHA failover scripts的文件",

failover_script_vip varchar(50) NOTNULLDEFAULT"" COMMENT "MHA failover scripts 中定义的VIP",

online_script varchar(250) NOTNULLDEFAULT"" COMMENT "MHA online change scripts的文件",

online_script_vip varchar(50) NOTNULLDEFAULT"" COMMENT "MHA online change scripts 中定义的VIP",

script_remark varchar(1500) NOTNULLDEFAULT"" COMMENT "MHA scripts VIP 检查结果",

masterha_status varchar(10) NOTNULLDEFAULT"" COMMENT "MHA 检查是否开启,来自于 masterha_check_status 检查结果",

master_serverip varchar(50) NOTNULLDEFAULT"" COMMENT "MHA 检查是否开启,来自于 masterha_check_status 检查结果",

`current_master_ip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA 当前主节点,来自check_repl",

`mha_current_vip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA 当前VIP ,来自check_repl",

`slave1_ip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA 当前从节点1,来自check_repl",

`slave2_ip` varchar(50) NOTNULLDEFAULT"" COMMENT "MHA 当前从节点2 ,来自check_repl",

mha_cnf_remark varchar(1500) NOTNULLDEFAULT"" COMMENT "MHA check conf/cnf 检查结果",

check_repl_remark varchar(1500) NOTNULLDEFAULT"" COMMENT "MHA check repl检查结果",

remark varchar(1500) NOTNULLDEFAULT"" COMMENT "MHA 检查结果",

`creator` varchar(50) NOTNULLDEFAULT"",

`create_time` datetimeNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,

`operator` varchar(50) NOTNULLDEFAULT"",

`modify_time` datetimeNOTNULLDEFAULTCURRENT_TIMESTAMPONUPDATECURRENT_TIMESTAMP,

PRIMARYKEY (`id`)

) ENGINE=InnoDB AUTO_INCREMENT=1DEFAULT CHARSET=utf8mb4

2. 连接DB的模块 

模块命名为db_conn.py,在此模块中,使用 mysql-connector替代了MySQLdb。安装更加简便。

#!/usr/bin/python3

# -*- coding: UTF-8 -*-

##import MySQLdb 安装模块麻烦

import mysql.connector

db = mysql.connector.connect(user="nideuid", password="nidepwd",host="nideseverip",database="DBname",port=XXXX)

 3.功能实现模块

文件为collect_mysqldbmha_info.py,其代码如下:

#!/usr/bin/python

# -*- coding: UTF-8 -*-

import os

import io

import re

import ConfigParser

import socket

import db_conn

mysqldb = db_conn.db

cursor = mysqldb.cursor()

## 第1部分 获取本机IP

try:

s=socket.socket(socket.AF_INET,socket.SOCK_DGRAM)

s.connect(("8.8.8.8",80))

mha_manager_ip=s.getsockname()[0]

print("mha manager 所在主机的IP如下:")

print(mha_manager_ip)

finally:

s.close()

###

##第2部分: 循环遍历mha cnf 所在的文件夹,取出 cnf 进行判断和检查

Path="/date/funcation/python/mha_conf"

#fout=open("输出文件名","w")

for Name in os.listdir(Path) :

Pathname= os.path.join(Path,Name)

## print(Pathname)

## print(Name)

mha_name = Name.replace(".cnf", "").replace(".conf", "") ###为MHA集群启个名字

##print(mha_name)

##注意此处为r,不能为w,否则报错:IOError: File not open for reading

with open(Pathname,"r") as f:

filecontent=f.read()

#print(filecontent)

remark = ""

####调整为ConfigParser,注意python2 和 python 的模块名字是不一样的.ConfigParser与configparser

config =ConfigParser.ConfigParser()

try:

config.read(Pathname)

server_item = config.sections()

##print(server_item)

### start 获取 MHA 切换时的scripts 文件名字

mha_failover_script = ""

mha_online_change_script =""

mha_cnf_remark =""

if"server default"in server_item:

mha_failover_script = config.get("server default","master_ip_failover_script")

###

mha_failover_script=mha_failover_script.replace(" --ssh_user=root", "")

##print(mha_failover_script)

else:

mha_cnf_remark = mha_cnf_remark + "mha_failover_script 未配置;"

if"server default"in server_item:

mha_online_change_script = config.get("server default","master_ip_online_change_script")

##print(mha_online_change_script)

else:

mha_cnf_remark = mha_cnf_remark + "mha_online_change_script 未配置;"

###1.1 end 获取结束

##1.2 start 获取MHA配置文件中的节点信息

server1_host = ""##MHA cnf 配置文件中的节点1

server2_host = ""##MHA cnf 配置文件中的节点2

server3_host = ""##MHA cnf 配置文件中的节点3

if"server1"in server_item:

server1_host = config.get("server1","hostname")

print(server1_host)

else:

server1_host = ""

mha_cnf_remark = mha_cnf_remark + "Server1未配置;"

print(server1_host)

if"server2"in server_item:

server2_host = config.get("server2","hostname")

print(server2_host)

else:

server2_host = ""

mha_cnf_remark = mha_cnf_remark + "Server2未配置;"

print(server2_host)

if"server3"in server_item:

server3_host = config.get("server3","hostname")

print(server3_host)

##else:

##server3_host = ""

##mha_cnf_remark = mha_cnf_remark + "Server3未配置;"

##print(server3_host)

##1.2 获取server节点信息结束

print(mha_cnf_remark)

except Exception as e:

print(e)

#####第3部分 start 从 mha scripts 中提取 配置的VIP

mha_remark = ""

mha_failover_my_vip = ""

mha_failover_flush_vip = ""

mha_onlinechange_my_vip = ""

mha_onlinechange_flush_vip =""

if len(mha_failover_script) <> 0 and len(mha_online_change_script) <> 0 :

##3.1 先来处置 failover_script,解析其中的VIP

with open(mha_failover_script,"r") as f:

failscript_lines=f.readlines()

for failscript_line in failscript_lines:

failscript_ip=re.findall(r"(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)", failscript_line)

if failscript_ip:

if"my $vip ="in failscript_line:

mha_failover_my_vip = failscript_ip[0]

print("解析出mha_failover_my_vip:")

print(mha_failover_my_vip)

if"my $ssh_flush_vip"in failscript_line:

mha_failover_flush_vip = failscript_ip[0]

print("解析出mha_failover_flush_vip:")

print(mha_failover_flush_vip)

##文件读取完毕,对读取结果进行判断,判断两种情况

## 一种是否未定义

if mha_failover_my_vip =="":

mha_remark = mha_remark + "MHA failover 未提取到VIP的设置,请检查;"

## 另外一种,,定义了,但是值不相等

if mha_failover_my_vip <> mha_failover_flush_vip:

mha_remark = mha_remark + "MHA failover scripts文件中设置的两处VIP不一致,请检查;"

## 3.2 处理online change scripts ,解析提取其中的VIP信息

with open(mha_online_change_script,"r") as f:

onlinescript_lines=f.readlines()

for onlinescript_line in onlinescript_lines:

onlinescript_ip=re.findall(r"(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)", onlinescript_line)

if onlinescript_ip:

if"my $vip ="in onlinescript_line:

mha_onlinechange_my_vip = onlinescript_ip[0]

print("解析出mha_onlinechange_my_vip:")

print(mha_onlinechange_my_vip)

if"my $ssh_flush_vip"in onlinescript_line:

mha_onlinechange_flush_vip = onlinescript_ip[0]

print("解析出mha_onlinechange_flush_vip:")

print(mha_onlinechange_flush_vip)

#### online change 文件读完了,判断定义的VIP是否符合要求

if mha_onlinechange_my_vip =="":

mha_remark = mha_remark + "MHA online change scripts未提取到VIP的设置,请检查;"

if mha_onlinechange_my_vip <> mha_onlinechange_flush_vip:

mha_remark = mha_remark + "MHA online change scripts文件中设置的两处VIP不一致,请检查;"

#### 两个文件都读取了,判断两个文件中定义的VIP是否一致

if mha_onlinechange_my_vip <> mha_failover_my_vip:

mha_remark = mha_remark + "MHA online change script 和 failover script 中的VIP不一致,请检查。"

else:

mha_remark = mha_remark + "MHA init 的配置文件未正确定义切换的scripts,请检查。"

#print("MHA init 的配置文件未正确定义 切换的scripts,请检查。")

print(mha_remark)

#####第2部分 end 从 mha scripts 中提取 配置的VIP

#### 第4部分,从masterha_check_status执行结果中判断mha进程状态

## 从 执行masterha_check_status结果中解析出的 masterha_status 和 master_serverip 的数据

masterha_status =""

master_serverip =""

## 从 执行masterha_check_repl结果中解析出的 current_master 、current_slave1、current_slave2 和 mha_current_vip 的数据

current_master = ""

current_slave1 = ""

current_slave2 = ""

mha_current_vip =""

##判断下文件是否是MHA的配置文件,判断方式就是文件中 必须有 server defaultserver1的sections

if"server default"in server_item and"server1"in server_item :

##cmd_mha_status ="/usr/local/bin/masterha_check_status --conf=/etc/mha/opszabbix.cnf"

cmd_mha_status ="/usr/local/bin/masterha_check_status --conf="+Pathname

try:

mha_status=os.popen(cmd_mha_status)

mha_status_result = mha_status.read()

print(mha_status_result) ##返回样式为 XXXX (pid:------) is running(0:PING_OK), master:XXX.XXX.XXX.XXX

### 判断状态是否为运行中

if"running(0:PING_OK)"in mha_status_result:

masterha_status="Running"

##抓取MHA的Master 节点

##master_serverip = mha_status_result[mha_status_result.rfind("master:"):]

master_serverip = mha_status_result.split("master:")[1]

print(master_serverip)

print("MHA启动运行正常")

elif"stopped(2:NOT_RUNNING)"in mha_status_result:

masterha_status="stopped"

print("MHA未启动!!!")

finally:

if mha_status:

mha_status.close()

#### 第5部分,从masterha_check_repl的执行结果中,判断解析 主、从节点、VIP节点

## 判断 副本集 的状况

cmd_repl_status ="/usr/local/bin/masterha_check_repl --conf="+Pathname

try:

##### 添加 2> error 参数,不需要打印出调试信息。

cmd_repl_status_result = cmd_repl_status + " 2> checkrepl.log"

repl_status=os.popen(cmd_repl_status_result)

repl_status_result = repl_status.read()

##print(repl_status_result)

if"MySQL Replication Health is OK"in repl_status_result:

print("MHA集群的主从正常")

###获取ServerIP

#######调试信息是输出到2号流中的,所以一定 添加 2>&1,否则抓取不到节点信息,只能抓到一个VIP。

cmd_repl_status_info = cmd_repl_status + " 2>&1"

with os.popen(cmd_repl_status_info,"r") as repl_status_check2:

#repl_status_lines=repl_status_check2.readlines()

repl_status_lines=repl_status_check2.readlines()

##print(len(repl_status_lines)) ####打印出list的元素个数

for repl_status_line in repl_status_lines:

##print("################## start ###########################")

##print(str(repl_status_line).replace("

", "").replace(" ", ""))

##repl_status_line ="Current Alive Master: 10.200.58.63(10.200.58.63:55988)"

serverip_result=re.findall(r"(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?).){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)", repl_status_line)

if serverip_result:

if"Current Alive Master:"in repl_status_line:

current_master = serverip_result[0]

print("已解析到主节点IP")

print(current_master)

elif"Checking replication health on"in repl_status_line and current_slave1 == "": ###有可能有2个从节点,此处为第1个从节点

current_slave1 = serverip_result[0]

print("已解析到从节点1")

print(current_slave1)

elif"Checking replication health on"in repl_status_line and current_slave1 <> "": ###有可能有2个从节点,此处为第2个从节点

current_slave2 = serverip_result[0]

print("已解析到从节点2")

print(current_slave2)

elif"Checking replication health on"in repl_status_line and current_slave1 <> "": ###有可能有2个从节点,此处为第2个从节点

print("集群有3个或更多的从节点,请确认。")

if"down==/sbin/ifconfig "in repl_status_line:

mha_current_vip = serverip_result[0]

print("已解析到MHA集群的VIP")

print(mha_current_vip)

##print("包含serverip")

##print(serverip_result)

#else:

#print("不包含ServerIP")

##else:

##print(repl_status_line)

##print("################## end ###########################")

####获取IP部分结束

else:

print("MHA集群的主从异常,请及时检查")

finally:

if repl_status:

repl_status.close()

else:

remark = Pathname + "...... 不是MHA的配置文件,请检查!"

print(remark)

##### 第6部分,将数据保存到表中

sql_insert = "insert into mysqldb_mha_info(mha_manager_ip,mha_name,mha_file_name,mha_name_path,cnf_server1_ip,cnf_server2_ip,cnf_server3_ip,failover_script,failover_script_vip,online_script,online_script_vip,masterha_status,master_serverip,current_master_ip,mha_current_vip,slave1_ip,slave2_ip,mha_cnf_remark,script_remark,remark) "

"values("%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s","%s")" %

(mha_manager_ip,mha_name,Name,Pathname,server1_host,server2_host,server3_host,mha_failover_script,mha_failover_my_vip,mha_online_change_script,mha_onlinechange_my_vip,masterha_status,current_master,master_serverip,mha_current_vip,current_slave1,current_slave2,mha_cnf_remark,mha_remark,remark)

##print(sql_insert)

cursor.execute(sql_insert)

mysqldb.commit()

#####

# 关闭游标

cursor.close()

# 关闭数据库连接

mysqldb.close()

 4.代码运行

Python 运行环境为:Python 2.7.5

执行命令:

python /data/XXXX路径/collect_mysqldbmha_info.py

定期收集,请根据需要设置cron.

 

以上是 通过Python收集MySQLMHA部署及运行状态信息的功能实现 的全部内容, 来源链接: utcz.com/z/535983.html

回到顶部