当前位置:大学毕业论文> 本科论文>材料浏览

数据中心类有关论文怎么写 与数据中心IT设备硬件级监控技术有关论文范文集

主题:数据中心论文写作 时间:2024-02-01

数据中心IT设备硬件级监控技术,该文是数据中心方面大学毕业论文范文与数据中心和硬件和监控方面大学毕业论文范文.

数据中心论文参考文献:

数据中心论文参考文献 农村新技术杂志现造技术论文计算机科学和技术专业导论论文电脑知识和技术期刊

近年来,随着商业银行业务量的大幅增加和金融IT技术的快速发展,数据中心的IT 设备数量呈爆发式增长.不同于系统级监控具有良好的可扩展性,当前以人工巡检为主要手段的IT 设备硬件级监控成为数据中心安全运维的瓶颈.本文针对大型商业银行数据中心IT 设备硬件级监控技术进行探讨,运用以信息流的来源和去向为维度的二维象限法,对监控概念进行了四象限划分,提出了带内硬件监控和带外硬件监控的概念;同时,浅析了业界主流的各类监控技术,并对各技术的适用场景进行了对比;以监控概念为指导,以监控技术为要素,提出了构建面向大型商业银行数据中心的监控解决方案的配置应用策略.

一、数据中心IT 硬件运维的挑战

大型商业银行数据中心部署的IT 设备数量动辄数以千计.由于设备数量多、硬件架构复杂,长期生产运行过程中IT 设备硬件故障难以避免,硬盘、板卡和电源等硬件告警事件频发,严重影响了生产的安全运行.

数据中心的IT 硬件运维面临着严峻的挑战.

目前,IT 硬件运维业已成为数据中心亟待解决的痛点.以中国农业银行(以下简称“农行”)数据中心为例,该数据中心的机房部署了IT 设备数千台套.设备类型繁多,其中包含:主机、小型机、PC 服务器、刀片服务器、SAN 存储、NAS 存储、带库、负载均衡、网络相关设备和其他类型设备等,其中PC 服务器占比较大.

同时,设备品牌、型号繁多,共涉及品牌数十个,型号数百种.经统计,一年内发生的确定性硬件告警次数高达1000 多起.

农行数据中心的现有IT 硬件监控手段是人工巡检.值班人员每天以一定频度检查每台设备的硬件运行情况,检查手段包括:看指示灯、感受机箱温度和听有无杂音等.值班人员的巡检频度为几小时一次,工作相当繁重,且效率低下.以人工巡检为手段的IT 硬件监控存在如下缺陷:

(1)响应时间较长,需小时级的时间方能发现某告警,还不包括后续人工报告的时间.

(2)准确度不高,告警定位不准确,误报、漏报的可能性较大.

(3)逐个检查设备状态,对值班人员的体力是个巨大的挑战.

(4)可扩展性差,对于飞速发展的商业银行数据中心,将来面对万平米级的机房面积和上万数量级的设备,现有监控手段将会捉襟见肘.

二、IT 硬件监控的概念与分类

监控本质上是一个信息流动的过程,监控对象被关注的信息点,我们称为监控指标.本文尝试从该信息流的来源和去向的二元判断维度,对IT 监控进行划分和概念上的定义.

以信息流的来源维度,IT 监控可划分为系统级监控和硬件级监控.监控指标是用来描述OS、中间件或应用状况的监控,我们称之为系统级监控.监控指标是用来描述IT 设备硬件状况的监控,我们称之为硬件级监控.必须指出,两类监控的判断标准是信息的来源,而不是信息的载体和渠道.某些可在OS 层获取的信息,如果传达的是硬件的状况,仍被认为是硬件监控指标,下文会有进一步论述.系统级监控的常见监控指标包括:各类应用的运行状态及告警信息、各类中间件的运行状态及告警信息、数据库运行状态及告警信息和OS 层的软件级告警信息.硬件级监控常见监控指标包括:CPU 状况、内存状况、硬盘状况、机箱温度、电源状况(电流、功率及告警信息)和风扇状况等.

以信息流的去向维度,IT 监控可划分为带内监控和带外监控.通过标准网口传输监控数据的监控,称为“带内监控”.通过专用的硬件管理接口传输监控数据的监控,称为“带外监控”.

带内监控通过标准网口传输,不需要独特的硬件支持,通常不可独立于OS 进行.带外监控通过特殊定义的硬件接口规格传输数据,需独特的硬件支持,一般需配置单独的管理口IP,可实现不依赖OS 甚至BIOS 的独立数据传输.

运用二维象限法,通过两个划分维度可以将监控划分为一个四象限概念空间,如图1 所示.

IT 硬件监控根据实现途径可分为两类:带内硬件监控和带外硬件监控.

通过带内传输监控数据的硬件监控,称为“带内硬件监控”;通过带外传输监控数据的硬件监控,称为“带外硬件监控”.下面将以上文提出的概念族作为线索,论述各类监控技术和监控解决方案.

三、IT 硬件监控技术浅析

根据上述的四象限监控空间模型,无论是系统级监控还是硬件级监控都有带内和带外的实现方式,这在技术上确实是可行的,这是因为OS 与IT 硬件具备特有的交互性,如图2 所示.

我们知道,OS 作为直接运行在硬件裸机上的最基本的系统软件,是IT 硬件的管家,它可以隐藏具体硬件细节同时向上提供抽象化、通用化的硬件接口.简而言之,许多硬件的状况都能在OS 层获取,而硬件的故障也多能反映为OS 层的某些告警,从而通过带内传输出去.以此类推,带外技术也支持从操作系统中获得一些信息.

我们从技术层面对IT 硬件监控进行解析,将能实现硬件监控的技术分为两类:带内硬件监控技术和带外硬件监控技术,两类技术分别通过不同途径获取来自硬件的信息,如图3 所示.

带内硬件监控技术的实现原理是:利用OS 与硬件的交互性,对硬件信息在OS 层的某些映射进行过滤、关联分析和判断,形成监控数据,整个过程的数据通过带内进行传输.该原理仅是具体技术的概括性阐述,各种监控技术的具体实现千差万别.这里说的OS 层映射,既包括日志、文件和进程这样的信息载体,也包括控制台、API 这样的交互接口;过滤、关联分析和判断等工作可能发生在被监控设备的OS 中,也可能是传输到监控设备后进行.带外硬件监控技术的实现原理是:定义专门的管理接口标准,在特殊的硬件部件的支持下,通过带外传输监控数据.

下面将分类介绍各种监控技术,并对各自的适用场景进行分析.

1. 带内硬件监控技术

根据是否需在被监控机部署*软件(插件),带内硬件监控技术又可分为Agent 监控和非Agent 监控两大类.

(1) Agent 监控

顾名思义,Agent 监控是指在通过在被监控端OS上部署*软件(插件),实现数据采集的监控技术,是一种功能较为强大、效率较高、可性较高且对监控端依赖较小的监控手段.Agent 运行在被监控端,需占用一定的系统资源(CPU、内存等)来运行.Agent可以对数据进行分析和汇总,并经压缩后进行实时传输,在一定程度上解放了监控端.另外,Agent 可性较高,一般支持二次开发,可监控用户的监控指标. Agent 监控比较适用的场景有:一是需采集的数据量较大且实时性较强的监控;二是被监控端系统资源充足而监控端资源相对紧张的监控;三是网络带宽较为紧张的监控;四是监控指标化程度较高的监控.

(2) 非Agent 监控

非Agent 监控是指不依靠部署在被监控端的软件(插件),而通过一些标准的协议或其他途径,实现监控数据采集的诸多监控技术的统称.相对而言,非Agent 监控具有对被监控机影响小、部署简单、网络带宽占用率较高和不可二次开发等特点.

① SNMP 监控

SNMP 即简单网络管理协议.目前,几乎所有厂商都已实现了对SNMP 的支持,SNMP 已成为一个统一的、跨平台的公用通信协议.SNMP 监控又可分为主动型监控和被动型监控两类:主动型监控是指通过Server 发送状态请求报文,而由Client 响应并将相关状态信息反馈给Server 的监控方式;被动型监控,又称Trap 监控,当某些需要被关注的事件发生时,Client 可以向Server发送Trap 报文,以告知Server 该事件.

SNMP 监控的适用范围非常广泛,所有支持SNMP协议的设施皆可使用.主动型监控和Trap 监控可灵活配置,以适用于不同场景.

② SSH/RSH/Telnet/FTP 监控

该技术一般是通过TCP/IP 协议族里的协议连接到被监控机,通过协议功能或运行脚本并传输运行结果到监控端实现监控.

SSH/RSH/Telnet/FTP 监控的监控方式简单直接,容易部署,而监控结果呈现的信息相对原始,可监控的指标也有限.

③ Syslog 过滤监控

Syslog 是一种用来在TCP/IP 的网络中传递系统日志的标准.该协议通过Syslog 进程记录系统的相关事件,并提供了一个传递方式,允许设备通过网络把事件信息传递给监控端.使用Syslog 协议实现硬件监控,难点不在于部署,而在于设置过滤策略提取出跟硬件相关的事件和问题.

Syslog 过滤监控的适用场景: 被监控机开通了Syslog 协议和端口,拥有网络准入,且监控机资源相对充足的情形.

④ HMC 监控

HMC 提供了一套标准的用户接口来配置和管理小型机上的分区.配备HMC 的小型机也可以通过HMC进行硬件监控.在HMC 上,可通过编写脚本,实现对硬件状态进行轮询;同时支持设置SNMP Trap,实时发送需要被关注的事件.

HMC 监控本质上不是独立于其他监控技术的独立技术.其适用场景为配置了HMC 的小型机.

⑤ WMI 监控

WMI 是一项Windows 的核心管理技术,提供了一个通过操作系统、网络和企业环境去管理本地或远程计算机的统一接口集.使用WMI,我们可以访问、配置、管理和监视几乎所有的Windows 资源.通过WMI,应用或脚本避免了直接访问操作系统各个部分的底层API,从而大大降低了实现难度.

WMI 监控的适用场景:操作系统是Windows 的设备.

⑥ I-S 监控

I-S 即存储管理接口标准,是一种专门用来监控和管理存储设备的标准.I-S 的主旨是,提高存储区域网络(SAN)中异构的存储设备的互操作性,在存储设备和管理系统之间提供标准化的通信方式,使存储管理实现厂商无关性,提高存储管理系统能够实现鉴别、分类、监控和控制物理及逻辑资源的能力.

I-S 监控的适用场景:支持I-S 的存储设备.

2. 带外硬件监控技术

下面介绍业界流行的带外硬件监控技术—IPMI 监控.IPMI 的主旨在于提供一种硬件管理接口标准,通过该标准用户可以在不依赖OS 甚至BIOS 的情况下配置管理服务器并监视服务器的物理特征.

IPMI 的核心工作部件是一个专用芯片——基板管理控制器(BMC),它通常是一个安装在服务器主板上的独立板卡(有的主板也可直接支持).IPMI 规范定义了一套指令,在工作时,所有的IPMI 功能都是通过向BMC 发送指令完成的,如图4 所示.

基板管理控制器可通过传感器、监测电路收集信息,并将传感器信息存储到本地的传感器数据记录(SDR)里,将系统事件存储到本地的系统事件日志(SEL)中,以便日后查询.对于接收到的严重事件,BMC 将发送警报信息和故障日志记录给监控端.另外,IPMI 2.0提供的SOL(LAN 上串行)功能,更可以使得系统与串口之间的对话由BMC 重定向到网络上.这样一来,Windows 的紧急事件管理控制台(EMS)和Linux 的串行控制台,均可以通过IPMI 来访问.这便是IPMI 可以同时获取硬件层信息和OS 层信息的原因.

IPMI 当前的适用范围主要是X86 构架的机器.很多品牌的机器自带的监控管理接口也支持IPMI 功能,具体要看设备型号是否为支持IPMI 的机型.

3. 带内硬件监控与带外硬件监控的对比

带内、带外硬件监控技术的区别主要体现在以下五个方面.

(1)监控指标:带内硬件监控技术是通过OS 与硬件的交互性来获得硬件情况的,它可以监控的指标较多;带外硬件监控技术监控的指标相对少但直观性更强.

(2)运行方式:带内硬件监控技术需在OS 层及以上运行;带外硬件监控技术依赖于特殊的硬件模块,可以独立于CPU、OS 甚至BOIS 运行,即使系统未加载或宕机,依然可以工作.

(3)资源占用情况:带内硬件监控技术需占用或多或少的系统、网络资源;带外硬件监控技术占用的是独立的硬件模块和带外管理网络.

(4)部署方式:带内硬件监控的部署几乎都在软件层面;带外硬件监控的部署需要进行物理布线等工作.

(5)适用范围:带内硬件监控技术多样,适用范围广,可涵盖几乎所有设备类型;带外硬件监控技术(IPMI)目前只支持X86 构架的设备.

四、大型数据中心硬件监控技术的配置应用大型数据中心往往部署着数以千计的IT 设备,设备类型、品牌、型号分布广泛.各类监控技术各有其特点和适用场景,并且不同于已相对完善的应用和中间件监控,IT 硬件监控没有OS 的统一界面及其生态环境下一系列标准协议族的支持,IT 硬件的监控具有其固有的复杂性.因此,要想有效实现覆盖所有IT 设备的统一监控平台系统,必须根据设备类型、使用场景合理配置各类监控技术.

根据各类监控技术特点,结合大型数据中心的运维经验,提出IT 设备硬件监控技术的配置应用策略如下.

(1)对于PC 服务器:以IPMI 带外监控做为基础监控手段,获取其支持监控的基本硬件状态信息;同时可采用各带内监控技术为辅助,获取更全面的硬件状态信息.

(2)对于主机:IBM 主机都配备HMC,可采用HMC 监控.

(3)对于小型机:配有HMC 的小型机采用HMC监控;未配置HMC 的小型机在支持相关标准协议且路由可达的情况下可采用SNMP、Syslog、SSH/RSH/Telnet/FTP 监控等.

(4) 对于存储: 以I-S 监控( 可辅以SNMPTrap)为监控手段.

(5)对于负载均衡、交换机:以SNMP 为监控手段.

另外,对于高度化、功能及性能要求较高的监控需求,可以考虑在权限允许且资源富裕IT 设备上部署Agent 进行监控.对于已经装有Agent 的IT 设备,可以考虑接入Agent 数据进行监控.

五、监控效果实测评估

以上文提出的监控技术配置应用策略为指导,我们搭建了IT 硬件监控原型测试系统,对可行性和监控效果进行了测试,从全面性、实时性及准确性等方面进行了评估.

原型系统测试中,我们择选了17 个不同型号的IT设备各1 台作为测试标的,待测设备型号均为常见型号(所属设备数量占设备总数的较大比例),且尽量覆盖不同的设备类型、品牌和购置年代,较能代表数据中心IT 设备基本情况.设备类型包括:PC 服务器、小型机、刀片服务器、负载均衡、带库和存储等;设备品牌包括:

华为、曙光、IBM、HP、DELL、F5、昆腾和Netapp 等;购置年代从2007 年至2014 年间.设备列表见表1.

通过原型系统的实际测试,对待测试IT 设备均实现了IT 硬件级监控,可自动发现IT 硬件级故障并发出告警信息,详述如下.

1. 全面性评估

原型监控系统可检测各设备类型的硬件信息指标共计55 个,包括但不限于以下指标:面板灯、CPU、内存、硬盘、主板、电源、风扇、功耗、温度、机箱入侵、日志、RAID 卡、CMOS 电池、IO 插槽、分区状态和DVD 等.

每台设备的具体监控指标视设备类型及设备型号有所不同.

原型监控系统运行1 个月,对17 台待测设备检测到的故障告警进行统计,自动识别率达到100%,可覆盖所有IT 硬件级告警.

2. 实时性及准确性评估

由于自然发生的硬件告警难于追踪且不具有典型性,又因为待测IT 设备均是开发、测试类设备,所以我们选择人工触发部分告警(或事件)的方式,评估监控的实时性和准确性.我们选择人工触发6 组告警(或事件),包括:单路电源掉电;模拟温度异常;机箱入侵;风扇转速的阈值告警;带库I/E 槽插入陌生磁带;设备开机.触发方式见表2.

(1)实时性评估,是通过测试从触发告警到监控系统检测到告警的时间来实现的.测试结果见表3.

可见,监控系统可在分钟级的时间内检测到硬件告警.相比传统人工巡检,IT 硬件监控技术可以大大缩短硬件故障发现和处置时间.

(2)准确性评估,是通过查阅监控系统对告警的描述与实际情况是否吻合来实现的.测试结果见表4.可见,监控系统可准确描述硬件告警信息,指示出告警部件(或指标),这将提高维修的针对性和准确性,大大提升IT 硬件运维效率.本文首先从概念上提出了基于四象限概念划分的带内硬件监控和带外硬件监控的定义;浅析了业界流行的各类监控技术及其适用场景,提出了构建面向大型商业银行数据中心的监控解决方案的配置应用策略.以该策略为指导,通过搭建原型监控系统,对监控效果进行了实际测试,从监控的全面性、实时性及准确性等方面进行了评估.由此可见,合理配置后的硬件监控方案,可大规模运用于商业银行数据中心的IT 硬件运维工作,从而大大地提高IT 硬件运维效率,提升了监控效果.

栏目编辑:孔蕊 kongrui@fcc.com.cn

上文总结:上述文章是关于经典数据中心专业范文可作为数据中心和硬件和监控方面的大学硕士与本科毕业论文数据中心论文开题报告范文和职称论文论文写作参考文献.

监控技术在广播电视信号系统发射的应用
摘 要 随着信息技术的飞速发展,广播电视普及到千家万户中 为保证广播电视安全运作,相关部门需要在广播电视信号系统发射中应用监控技术,从而有效的控制多种隐患,在极大程度上降低外部客观因素的影响,及时发现.

数据通信中多路复用技术的应用
摘 要 多路复用技术主要由频分多路复用、时分多路复用、波分多路复用、码分多路复用几个部分组成,目前在数据通信系统中得到了较好的应用 关键词 数据通信;多路复用技术;应用出于对传输系统利用率的考虑,越来.

金融业数据中心机房建设中模块化的应用
摘要当今社会,信息化高速发展,各行各业的信息化资源整合不断加速,数据中心建设进入快速发展阶段,特别是在追求安全、高效能的金融业领域,模块化数据中心建设更是迎来了一个建设 模块化数据中心(也称为解耦与融.

大数据环境下的计算机信息处理技术分析和
基于大数据环境下,加强计算机信息处理就是应用十分重要,其是提高企业内部工作效率的基础,也是提高企业经济效益的关键 为此,相关人员需给予计算机信息处理技术高度重视,促使其存在的价值与效用在大数据环境下充.

论文大全