首页 > 架构设计 > 系统可靠性怎么做?

系统可靠性怎么做?

2020年5月24日 发表评论 阅读评论 695 次浏览

一个复杂单机系统的可靠性如何做?抛去各种理论不谈,最常用的手段之一就是采用Watchdog/Monitor机制来进行实时监控。如果是多机系统,那么通常的整体可靠性做法就是HA了。

对于单个Watchdog机制而言,可以参考Android的Watchdog设计。
Android中的软件Watchdog:https://blog.csdn.net/jinzhuojun/article/details/46552397
Android SystemServer中WatchDog机制介绍:https://www.jianshu.com/p/5e8c0cb1a58e
Android SSWD(system server Watchdog)工作原理:https://blog.csdn.net/abm1993/article/details/82107801

如果不清楚Watchdog是什么,这里有一点定义引用,具体可以参考链接:

Watchdog的中文的“看门狗”,有保护的意思。最早引入Watchdog是在单片机系统中,由于单片机的工作环境容易受到外界磁场的干扰,导致程序“跑飞”,造成整个系统无法正常工作,因此,引入了一个“看门狗”,对单片机的运行状态进行实时监测,针对运行故障做一些保护处理,譬如让系统重启。这种Watchdog属于硬件层面,必须有硬件电路的支持。
Linux也引入了Watchdog,在Linux内核下,当Watchdog启动后,便设定了一个定时器,如果在超时时间内没有对/dev/Watchdog进行写操作,则会导致系统重启。通过定时器实现的Watchdog属于软件层面。
Android设计了一个软件层面Watchdog,用于保护一些重要的系统服务,当出现故障时,通常会让Android系统重启。由于这种机制的存在,就经常会出现一些system_server进程被Watchdog杀掉而发生手机重启的问题。

Watchdog机制以及问题分析:https://duanqz.github.io/2015-10-12-Watchdog-Analysis

不管是单机还是多机,都有很多开源,比如Collectd、Icinga2、Netdata、TDGK、Zabbix等监控系统,Linux-HA、Keepalived、Pacemaker、Corosync、Zookeeper等集群组件。这可以根据具体业务情况,做进一步的判断与选择。

Over~

参考:
1,https://en.wikipedia.org/wiki/Fault_detection_and_isolation
2,https://en.wikipedia.org/wiki/Watchdog_timer
3,https://www.usenix.org/conference/nsdi20/presentation/lou
4,https://zhuanlan.zhihu.com/p/113707910
5,https://www.silabs.com/community/blog.entry.html/2019/06/18/kernel_201_implementingasoftwarewatchdog-37UJ
6,https://collectd.org/index.shtml
7,https://prometheus.io/

转载请保留地址:http://www.lenky.info/archives/2020/05/2940http://lenky.info/?p=2940


备注:如无特殊说明,文章内容均出自Lenky个人的真实理解而并非存心妄自揣测来故意愚人耳目。由于个人水平有限,虽力求内容正确无误,但仍然难免出错,请勿见怪,如果可以则请留言告之,并欢迎来讨论。另外值得说明的是,Lenky的部分文章以及部分内容参考借鉴了网络上各位网友的热心分享,特别是一些带有完全参考的文章,其后附带的链接内容也许更直接、更丰富,而我只是做了一下归纳&转述,在此也一并表示感谢。关于本站的所有技术文章,欢迎转载,但请遵从CC创作共享协议,而一些私人性质较强的心情随笔,建议不要转载。

法律:根据最新颁布的《信息网络传播权保护条例》,如果您认为本文章的任何内容侵犯了您的权利,请以Email或书面等方式告知,本站将及时删除相关内容或链接。

  1. 本文目前尚无任何评论.
  1. 本文目前尚无任何 trackbacks 和 pingbacks.