魏冠华
摘 要:高校图书馆数据中心机房管理是高校图书馆信息化工作的重点之一,也是一项涉及范围广、管理任务重的工作。该文主要从选定管理模式、建立管理制度、做好日常运行维护等多个层面讨论了高校数据中心机房的规范管理,同时还分析了机房管理方面的重点内容,并对未来数据中心机房的管理进行了展望。
关键词:高校图书馆 数据中心 中心机房管理
中图分类号:TP308 文献标识码:A 文章编号:1672-3791(2020)06(c)-0199-02
在信息時代,数据中心机房是高校图书馆信息化建设的核心之一,是服务器、存储、核心网络设备等重要设备的承载地。数据中心机房的管理与它的建设相比更为重要[1]。因此,图书馆的管理者应重视此项工作,一方面要参照国家住建部2018年发布的《数据中心基础设施运行维护标准》(GB/T 51314—2018)以及行业发布的其他相关标准,如《数据中心运行维护管理规范》《数据中心场地基础设施运维管理标准》《数据中心运维管理技术白皮书》等,践行相关标准细则,另一方面要注重从选定管理模式、建立管理制度、做好日常运维等多个层面对机房进行规范管理。
1 确定管理模式
数据中心机房的管理工作范围广、任务重,因此图书馆应在机房建设前就考虑选定合适的管理模式。高校图书馆往往缺乏足够的专业技术人员专门维护机房设施,所以不同的院校应根据自身条件采取不同的管理模式。
当前,普遍存在3种管理模式:第一,自主管理模式。采用此种模式的图书馆需要具备较为充足的技术人员,能担负起大部分的设施设备日常维护,其优点是花费较少、管理者责任意识较强,缺点是需要消耗大量的人力和精力且对技术水平要求较高。第二,外包管理模式。采用此种模式的图书馆把机房的日常管理和维护全部外包给服务商,其优点是节省本馆的人力资源、外包服务人员专业技术较强,缺点是花费较高。第三,混合管理模式。采用此种模式的图书馆把部分专业性较强、难度较大的管理维护业务外包给服务商,其余业务由自己来做,其优点是既保证了管理维护的专业需求,又能兼顾节省人力和财力。因此如果条件允许,采用第三种管理模式将更有利于高校图书馆的运行和发展。
2 建立管理制度
自中心机房进入试运行阶段开始,机房管理人员就要着手接管机房,除学习并熟悉各设备设施的使用操作以外,还要探索建立科学完备的机房管理制度。
在中心机房管理制度的制定中,除了参照国家和行业相关标准外,更重要的是要从该馆的实际入手,不断修正、逐步完善,直至形成相对稳定的制度。一般而言,中心机房的管理制度主要包含以下6个部分:一是IT类设备管理制度。此类设备管理制度是所有管理制度中的重点,在制订该制度时,要根据各设备的功能特点,从性能管理、配置管理、故障管理、安全管理、质量管理等多角度、全方位考虑。二是环境设施管理制度。环境设施是保证机房基本运转的重要保证,其管理制度应特别注重故障管理部分,尤其对故障报警的处理方面要做到及时、有效。三是电气管理制度。中心机房内各类用电设施繁多、强弱电线路复杂,尤其是强电用电的安全管理一定要特别注意。四是消防设施管理制度。消防设施的管理重在日常的巡查。因此其制度的制订应一方面考虑结合设备特点检查其状态和有效性,另一方面考虑根据可能发生的问题后果做出合理的处理措施。五是门禁管理制度。门禁涉及设备安全、数据安全和人员安全,其制度的制订需要从各类人员特别是外来人员的出入授权、出入记录、出入监控、入侵报警等多个方面考虑,同时还要特别考虑在出现特殊状态下的人员安全疏散问题。六是人员管理制度。中心机房设备设施复杂,需要由内外各类人员参与管理维护。因此,在人员管理的制定上需要考虑内部工作人员的职责、考勤、培训、奖惩等多个方面,还要考虑外来运维人员的相关管理等。
总之,无论采用哪种管理模式,管理人员都要把管理制度落实到工作中去。对于制度的落实,图书馆的主管负责人应该做好督促,发现问题及时问责并纠正。
3 主要管理工作
3.1 巡检
机房内部的多数设备都需要24h运转,如服务器、存储、交换机、UPS等。这些设备虽然不易损坏,但出现性能下降、器件老化、设备故障等问题在所难免。为此,管理维护人员必须按照管理制度做好各类设备的日常巡检。近年来,随着设备自动化、智能化程度的提高,越来越多的设备实现了故障自动报警,为管理者减轻了不少负担,例如环境监测、消防、安全防范等系统。一些数据中心机房,已经引入了具备智能监控、智能监测配置变更、智能提示等功能的智能运维管理平台,大幅度提高了管理效率[2]。
3.2 维护
除了做好巡检工作外,对设备设施的维护也是机房管理的主要工作内容之一。按维护的时间周期划分,维护可分为不定期维护和定期维护。
不定期维护一般包括反应性维护和前摄性维护,这些维护往往是因为在日常巡检中发现问题而做出的。例如,在巡检中,发现磁盘出现物理故障及时更换、发现新系统补丁及时更新等事先无法预见的问题,就属于反应性维护。而通过优化设备配置、改善设备状态进而提升设备性能等维护工作,则属于前摄性维护,如修改配置以提升虚拟机计算能力或为减轻主机负担而迁移虚拟机等。
定期维护一般都是按照预先计划做的维护,因此它们多数都属于预防性维护,如空调滤网按期更换、操作系统定期查毒、消防设施的定期检查等。这些维护是为避免故障发生而做的,同样不可忽视。
4 管理重点
4.1 服务器管理
服务器是图书馆提供各项信息服务的计算核心,具备高速的运算能力和I/O数据处理能力,主要有塔式服务器、机架式服务器、刀片服务器等类型[3]。对于服务器的管理主要包括故障处理和性能管理两个方面。
4.1.1 故障处理
从实践经验看,由于服务器的可靠性较强,其出现故障的概率并不高。当服务器出现故障时,往往是因为外部环境较差或者设备老化引起的。因此,管理者要在解决故障的同时,明确引起故障的原因,进而避免以后发生类似问题。例如,当外界环境温度过高时,可能会引起服务器散热差,造成磁盘故障。因此,在更换磁盘的同时,还要降低环境温度,从而解决根本问题。除磁盘故障外,服务器的内存、主板、电源等也是易损部件,同样需要管理者在巡检中发现、分析问题并予以解决。一般而言,管理者可以通過两个方面了解服务器部件是否有故障,一是服务器的外部指示灯,管理员可以通过实地观察指示灯状态初步判定故障情况;二是服务器管理功能,很多服务器都具有专用的管理功能,如HP服务器中的iLO(Intergrated Light-Out)。管理者可以通过此类管理功能远程查看和管理服务器的主要硬件。在发现故障后,管理者需要尽快解决故障以保证业务不受影响。
4.1.2 性能管理
服务器的性能好坏决定着业务是否顺利开展。当服务器出现性能下降时,管理者需要及时判断原因并采取应对措施。对于物理服务器而言,服务器性能下降主要包括CPU、内存或者I/O等负载过大,以及设备老化造成的总体性能下降等多个方面。对于负载过大引起的性能问题,需要仔细排查具体原因,例如,服务器受到网络攻击、业务量突增、软件故障等。在解决此类问题时,需要根据它的主要原因对症解决,如堵系统漏洞、扩充硬件、软件修复等。对于设备老化造成的性能问题,只能采取更换设备的方式解决。对于虚拟服务器而言,它的性能问题的解决相对要简单得多。例如,当它因业务突增而负载过大时,可以很方便地通过虚拟化管理软件增加其CPU数量、内存容量以及磁盘容量等硬件配置,从而保证业务顺利实施。
4.2 存储管理
近年来,虽然在高校图书馆购买的数字资源中,镜像资源有减少趋势,但自建特色资源、需要长期保存的镜像资源(尤其是多媒体资源)、业务数据仍然占用不少存储空间。因此,磁盘阵列、磁带库等存储设备仍然是高校图书馆数据中心的常用设备。存储设备的管理重点是它的数据安全性。因此围绕这一重点,管理者需要做好以下几点:一是做好硬件维护。主要包括故障磁盘的及时更换,磁带驱动器及时清洗等,以保证数据不丢失、业务不中断。为此,管理者应及时通过预警提示或查看日志发现故障信息,并严格根据规定予以解决。二是做好日常巡检。主要包括设备基本状态巡检、日志查看、任务管理等,如根据业务情况及时调整磁盘空间大小。三是做好数据备份。一方面,应充分利用磁带库大容量、低成本等存储优势,采用合适的备份策略及时备份重要信息;另一方面,有条件的图书馆可以采取异地容灾备份,保证极端情况下的数据安全。
4.3 环境设施管理
由于服务器、存储、交换机等业务设备高度依赖稳定的外部环境,因此,根据实践经验,环境设施的管理也是重点管理内容之一[4]。环境设施主要包括精密空调、温湿度传感器等。管理者可借助环境监控系统定期查看各个节点的环境状况,如温度、湿度、空气质量是否达标等。当系统因设定参数超过阈值或出现故障而报警后,管理者需要及时处理。同时,还需定期实地查看主要设施的运转状况。环境设施的正常运转离不开定期维护,主要包括空调滤网的更换、空调室外机的散热器的清洗等。如果不及时做维护,轻则影响环境质量、加重设备运转负荷,重则造成设备故障、影响业务正常开展。因此,管理者应根据制度做好定期维护。
5 结语
高校图书馆数据中心机房的规范管理需要从选定管理模式、建立管理制度、做好日常运维等多个方面入手。在管理过程中,建立完善的管理制度是数据中心机房规范化管理的前提,而合适的管理模式则是数据中心机房管理专业化的保障。在此基础上,管理者需要做好巡检和维护工作,并重点做好服务器管理、存储管理等。除此之外,随着技术的不断革新,数据中心机房的管理也正随之演进。例如,在近年的市场上,一体化机房、智能机房[6]等新机房模式已得到一定范围的应用。可以预见,这些新变化必将为未来高校图书馆数据中心机房的管理工作提供新的思路和机遇。
参考文献
[1] 李本强,刘红.《数据中心基础设施运行维护标准》(GB/T 51314—2018)解读[J].建筑技艺,2019(10):14-17.
[2] 程少良.数据中心智能运维管理平台的建设研究[J].计算机产品与流通,2019(10):127.
[3] 宋帅.数据中心IT硬件设施的一体化设计与实现[D].上海交通大学,2014.
[4] 王群.高校图书馆核心机房环境设备及环境监测分析[J].内蒙古科技与经济,2017(11):96-98.
[5] 刘伟.浅谈一体化机房系统[J].中国交通信息化,2018(1):133-135.
[6] 李莉.节能环保型智能机房研究与设计[J].山东工业技术,2019(7):115-116.