HACMP认证知识：应用程序监视

2016-10-08 00:00:00嘉辉 IBM认证

　　除了资源组管理以外，HACMP 还可以通过以下两种方法之一监视应用程序：

　　应用程序进程监视：使用 RSCT 事件管理功能检测进程是否终止。

　　应用程序自定义监视：基于您定义的监视方法(程序或脚本)来监视应用程序的运行状况。

　　注意：不能将应用程序进程监视用于监视通过 Shell 脚本启动的应用程序，或那些监视进程无法确定应用程序运行状况的应用程序。

　　对于监视 Shell 脚本应用程序，必须使用自定义监视方法(例如，Apache Web 服务器)。

　　当应用程序监视处于活动状态时，HACMP 的行为如下：

　　对于应用程序进程监视，一个内核 hook 将通知 HACMP 集群管理器所监视的进程已终止，HACMP 将启动应用程序恢复过程。

　　要使恢复操作能够进行，必须提供某种方法来清理和重新启动应用程序(可以使用为应用程序服务器定义提供的应用程序启动/停止脚本)。

　　HACMP 尝试重新启动应用程序，并等待应用程序稳定指定的时间，然后发送通知消息和/或实际将整个 RG 移动到另一个节点(节点优先级列表中的下一个节点)。

　　对于自定义应用程序监视(自定义方法)，除了应用程序清理和重新启动方法以外，还必须提供用于执行定期应用程序测试的程序/脚本。

　　要规划进程监视器的配置，请检查以下事项：

　　验证该应用程序是否可以使用某个进程监视器进行监视。

　　检查要监视的进程的名称。必须使用准确的进程名称来配置应用程序监视器。

　　指定拥有进程的用户名，例如 root。请注意，该进程拥有者必须拥有要监视的所有进程。

　　指定要监视的应用程序的实例数量(进程数量)。缺省为一个实例。

　　指定在开始监视前的等待时间(以秒为单位)。

　　注意：在大多数情况下，此值不应该为零。例如，对于数据库应用程序，您可能希望将监视延迟到启动脚本和初始数据库搜索已完成之后。

　　重新启动数值，表示在采取任何其他操作之前尝试重新启动应用程序的次数。

　　在重置重新启动数值前应用程序必须保持稳定的间隔(以秒为单位)。

　　要在应用程序无法在重新启动数值内重新启动时采取的操作。缺省选择是通知，即运行一个事件来向集群通知故障情况。还可以指定故障转移，在此情况下，包含故障应用程序的资源组将移动到对该资源组拥有下一个最高优先级的集群节点。

　　重新启动方法(如果希望的话)。(如果“Restart Count”不为零，则这是必需的。)

　　如果计划建立自定义监视方法，则还要检查：

　　是否已指定了要用于检查指定应用程序的程序/脚本。

　　关于运行该监视方法的频度的轮询间隔(以秒为单位)。如果监视器在此间隔内没有响应，则认为应用程序出错，并启动恢复过程。

　　在用户定义的监视方法未在轮询间隔内返回时用于终止该监视器方法的信号。缺省信号为 SIGKILL。

　　开始监视前的等待时间(以秒为单位)。例如，对于数据库应用程序，建议将监视延迟到启动脚本和初始数据库搜索已完成之后(否则，可能会认为应用程序出错并启动恢复过程)。

　　重新启动数值，即在采取任何其他操作之前尝试重新启动应用程序的次数。

　　在重置重新启动数值前应用程序必须保持稳定的间隔(以秒为单位)。

　　在应用程序无法在重新启动数值内重新启动时采取的操作。

[IBM认证]最新文章

[IBM认证]相关栏目推荐