为了对设备做出某些调整,解决某些当前的问题,或者为了划分出修复和更新换代在预算方面的优先级,管理员们必须要对他们的设备的运行的情况进行评估。因为数据中心的设备主要由服务器组成,所以,不言而喻,对于那些需要随时关注数据中心的资产的管理员们来说,服务器监控是一个关键性的领域。
推荐专题:Linux监控工具的展览馆
但是,监控并不只是捕获几个参数数据和当警告发生的时候做出响应那么简单。管理员们必须要确保服务器监控是有效的,并且可以提供相关的,有用的信息。这项工作的关键是尽量缓解一些可能会出现的问题,这些问题可能会干扰服务器的监控的顺利进行。
使用趋势
和服务器的监控相关的一个问题是,许多工具都提供了大量的数据,但是并没有提供太多的可用信息。没有可用的信息,管理员们不可不浪费大量的宝贵时间从一堆“杂乱无章的数据”中分离出和自己相关的一些信息。
Zenoss公司社区部门的副总裁Mark Hinkle说:“解决这个服务器监控的问题的关键是趋势。只通过服务器的监控工具来处理‘故障-修复’情况的管理员们,并不须要影响最终用户。监控磁盘的使用情况可以在故障发生以前看出容量存在问题。例如,一些监控解决方案提供了趋势分析的工具,你可以通过一些使用模式来预测出哪个存储容量的上限即将到达。”
LogicMonitor的创始人兼CEO Steve Francis说:“许多系统都只依靠‘基于阀值’的监控,几乎没有提供任何趋势分析的功能。”Francis接着强调:“被监控的每一件事情都应该被趋势化。实际上,为了提供一些帮助解决问题的信息,许多事情都应该被趋势化,而不是发出警告。”Francis举了一个新的应用程序发布的例子:如果应用程序执行的比较慢,然后触发了一个监控警告,通过这个监控警告,管理员们应该可以判断这个新版本是否导致了应用程序性能的突然降低,或者这个应用程序是否随着负载的增加而逐渐变慢。
选择合适的监控指标/工具
管理员们和数据中心的工作人员都很清楚这样一个事实:监控工具可能会把用户淹没在数据的海洋中。在这些数据中,有些是有用的,有些可能并没有什么用。要解决这个问题,不仅仅需要趋势,还需要选择合适的监控指标。
Logicalis公司的外包业务主管Mike Alley说:“对于高效率的生产服务器管理来说,主要需要关注的事情是如何确保监控工具只报告关键性的指标,这些指标可以提供和服务器的健康程度关系最密切的一些信息。”Alley接着说:“大多数的工具都会产生很多的无关事件,这会把监视控制台淹没在事件的海洋里,这导致的直接后果是:用户很难对关键性的事件引起注意。”
他补充道:“你可以从和CPU,内存,网络和存储相关的一些性能指标开始监控,它们都是很不错的出发点。管理员们还应该监控和服务器,系统日志,系统进程相关的硬件级的管理产品探测到的一些事件。管理员们应该定期检查监控工具报告的事件,然后筛选出那些事件会对用户造成影响,哪些事件是不需要理睬的。当然,那些会对用户造成影响,但是并没有被监控工具探测到的事件也应该检查,虽然监控工具并没有探测到这个事件,但是和这个事件相关的特定的指标应该已经被监视到了。”
Uptime Software的解决方案架构师Kenneth Cheung说:“各种工具都会对很多指标进行监控,这很正常。关键是要找到这样一个监控解决方案,它可以快速地把故障和事故与相关的设备和应用程序对应起来。”另外,他还补充道:“监控工具应该指出哪些问题需要优先处理,哪些设备设备需要优先关注。有了这样的功能,管理员们可以立即判断出哪个问题需要立刻引起注意。”
自动化
如果一个监控工具不通过自动化的方式来简化警告的处理流程,而只能通过人工的方式来处理,这会浪费很多的时间,而且还可能会由于一个故障处理的不及时让情况变得更糟。这点在之前发布的网站运维之道 监控与报警机制一文中也有过详细的描述。
Hinkle说:“当一个故障发生的时候,发送一个页面或其他的警告通常会引发一系列的事件:一个管理员收到了一个页面,登陆到服务器,然后再诊断这个问题。这个过程可能会花费几分钟的时间或者更长的时间。”他接着补充道:“在大多数情况下,监控工具可以启动一个进程,自动地修复这个问题。”他说:“例如:一个监控工具可以探测到一个服务器故障,然后使用一个自动化的工具来重新启动那个服务器,这样修复这个故障的时间会缩短很多。”
LogicMonitor的Francis说:“如果你的监控系统不能自动地探测到服务器,应用程序和设备的改变,那么你相当于没有做监控。原因是,在危急关头,通常会对服务器和系统会做出很多的改变,如果管理员们依靠人工的方式来处理,那么可能会遗漏掉一些关键性的变更。”
把监控和最终用户联系起来
服务器监控的最终目标是要确保关键性的业务应用程序持续正常地运行。这意味着服务器监控和最终用户的体验有很大的关系。
Uptime Software的Cheung说:“管理员们还应该监控和最终用户的应用程序相关的一些服务器和软件指标。管理员们需要监控服务器的运行情况和那些服务器上的软件的运行情况,但是最重要的事情是要把这些指标和最终用户关心的事情联系起来——那就是他们的应用程序是否在正常地运行。”Cheung接着说:通过以应用程序为中心的视角,可以让问题解决者把注意力集中在用户说了些什么和允许创建哪些警告上,还可以让自动化的活动更加有相关性和目的性。