# 关于supervisor要注意的点

有时候会有些惯性,总是重复的去采坑。当一次又一次的因为这些疏忽而影响到自己时,就一定要好好反思下了。

# 一. 更新配置\代码后,一定记得reload

是的,切记。特别是在做上线时,一定记得reload一下。可以将上线涉及的操作列到一个清单里面,下次上线时,对着清单操作一遍。

我之前写了一个支付模块,为了方便测试做了个区分:测试环境每次支付1分钱,生产环境每次支付实际的金额,两个环境用env的变量来区分。该模块上线后,为了排查一个问题,更改了env,之后问题找到了,并更新了代码。上线时,将env改了回来,但忘记reload supervisor,结果导致一笔费用收取不正确!好在产品还未推广,并未造成影响,但这件事情中可以看出:

1.调试BUG的方式太原始,应避免去线上调试,可引入ELK之类的工具流来处理(其实后端主要调试方式就是打日志-。-)。

2.实际原因也不是supervisor导致配置不正确,而是supvisor所管理的那个进程!该进程是将配置文件load到内存中运行,所以更改配置后,要重启进程,将新的配置加载进来,而我是用supvisor来管理这个进程的,所以最终表现出来的原因是没有reload supervisor。

# 二. 确保通过supervisor运行的进程只有一个

是的,切记。比如你的操作不是那么的规范:你先通过supervisord -c /etc/supervisor/supervisord.conf将supervisor启动了,过了几天后你忘记之前的启动操作了,你通过supervisorctl status去看进程的运行状态时,看到提示unix:///tmp/supervisor.sock no such file,你想是不是superiord挂掉了,不管那么多了,先启动吧,于是你做了个操作supervisord。之后看起来服务都正常了,于是干其他事情去了。可能不久你就会收到同事的反馈:数据不正常!你忙了一个小时,各种打日志,各种看代码,最终结果却是:有两个进程在跑同一个执行文件!你会发现一个是当前supervisor管理的进程,另一个进程的PPID和supervisor的PID不一样!于是你明白了:supervisord的操作没有杀死旧进程,而是又启动了一个新进程,两个进程同时运行,结果导致你的数据异常。最终你先将旧进程的PPID kill掉,再kill掉旧进程,再reload supervisor,之后终于恢复正常。从这一波的操作可以看出:

1.有些经验不要也罢。当看到unix:///tmp/supervisor.sock no such file时,一定要好好排查,不要着急去启动。即:遇到问题,不要想着重启!

2.可以使用一些更优雅的方式来运行supervisor。比如你的系统是centos,你可以把supervisor做成一个systemctl服务来避免这些问题。

3.reload supervisor之后,一定记得检查下,是不是只有一个进程在跑!

# 三. 关于supervisor

你可能会问了,都快9102年了,python2马上也要被抛弃了(Python核心团队计划在2020年停止支持Python 2),怎么还在用supervisor?其实就如开头说的,对场景工具的使用也会形成惯性,当你看到要跑守护进程场景时,就想到用supervisor。我觉得这个惯性倒是可以,这也是一种小积累,只是如果时间充足的话,可以多去了解尝试其他同类的工具。十年前我用nagios搭建了一套服务器监控平台,大家觉得不错,现在你说我用nagios做一套监控,大家首先会问nagios是什么,然后会觉得你是远古程序员(当然没也那么夸张,我十年前还在学堂里,nagios是什么也不知道,现在也还有很多公司用nagios,它仍然很有活力O(∩_∩)O )