新浪科技

解放运维工程师你需要服务器智能运维

ZOL中关村在线

关注

原标题:解放运维工程师你需要服务器智能运维

     随着互联网、5G、IoT等技术的飞速发展,全球大型数据中心数量将以3.6%的复合年增长率增长,数据中心规模不断扩大,数据中心服务器规模已经达到10万级,这不仅需要更多的运维工程师,给企业增加运维成本,同时给运维工程师也带来了极大的难度和挑战:如何及时发现异常设备?异常根因是什么?故障是否能自愈?是否能预测故障?性能趋势是什么?如何决策?

 运维发展历程:人肉运维、自动化运维和智能运维

 早期的运维工作,大部分是由运维工程师手工完成,这被称作人肉运维。服务器运行状态,全靠运维工程师每日肉眼查看,进行问题定位与解决。自动化运维应运而生,大大提升了发现异常设备的效率,降低了运维成本。但是,面对故障根因、故障预测、性能趋势和控制决策,自动化运维力不从心。

  Gartner在2016时提出了智能运维(ArtificialIntelligence for ITOperations)的概念,并预测到2020年,智能运维的采用率将高达50%。从服务器运维的角度来分析服务器智能运维,目标就是通过对带外信息(配置信息、状态信息、性能信息、日志等)和带内信息(配置参数、性能信息、日志信息)进行采集,通过机器学习的方式来解决运维问题,提高系统预警能力和稳定性,降低运维成本,提高运维效率。

    异常快速检测,问题准确告警

    在服务器运维中,异常检测是根本,常见的有三大监控数据:状态指标、性能指标和日志数据,状态指标一般误报率较少,而传统性能指标的设置阈值,常常某一时刻产生噪点数据而产生误报;对于周期性变化的数据又无法进行动态调整,也常常产生误报,大大降低了告警的准确性。日志一般是半结构化数据,根据日志级别产生告警,其准确性极差,并且只能检测到已知和确定模式的异常。

    浪潮服务器智能运维采用无阈值告警,无需人为设置阈值,通过对时序数据进行去噪、升维、方差等处理后,经过神经网络、LSTM、随机森林等算法进行动态的学习,达到对监控的性能指标,自动、实时、准确的识别出异常数据。对于日志的处理,通过对单条日志的语义识别和日志文件的时序识别方式,经过自然语言、专家系统、神经网络、深度学习等算法进行训练或者维护,从而不断完善,达到日志异常的准确检测。

    故障智能处理,轻松运维soeasy

    智能故障诊断是建立在异常检测之上,有了准确的异常检测,通过综合各个异常指标进行数据的融合、过滤、权重等处理,使用神经网络、SVM、随机森林等智能算法,寻找问题根因,给出问题解决方案,使得运维工程师能够分钟级解决问题。

    智能故障预测是对设备某一部件的性能数据和状态的动态检测,对原始数据进行数据挖掘,寻找特征数据建立数学模型,使用神经网络、SVM等智能算法进行在线/离线训练,形成预测模型。在部件发生故障前,感知故障,从而避免业务宕机,提高系统稳定性。

    智能故障自愈是指故障确认后或者预测到故障时,无需人为干预,能够通过重启、配置或者一定的流程,使得系统能够恢复正常。故障自愈,需要维护一定的规则或者对故障进行标记,经过神经网络、SVM等算法进行训练,形成自愈模型,实现系统的故障自愈。

    智能决策,感知未来发展

    浪潮服务器智能运维工具可对服务器的性能数据进行预测,经过ARIMA、至小二乘法、指数平滑、LSTM等智能算法,能够感知系统在未来几个小时、几天或者一年的数据的走势、增长量或者周期性变化等,不仅为人工预测或者智能决策提供基础数据,还能够为业务系统提供优化建议。

    浪潮服务器智能决策是建立在异常检测、故障诊断、故障预测、性能预测等之上,通过建立数据模型,经过神经网络、深度学习、专家系统等智能算法的不断学习,形成决策模型,无需人为干预,对服务器的配置参数进行智能调整,版本基线的升级/回退等决策,从而达到系统性能优、异常少、功耗低等效果。

    例如监控服务器运行的性能,在业务少的时候,可以将服务器功耗降低,在集群方式下,甚至可以进行服务器关机操作,在业务量大的时候,将服务器性能调整至优等智能决策。在整机柜/机房中,功耗的管理,当服务器都处于满载时,服务器的功耗是否超越了整个机房或者机柜的大功耗,超越之后如何进行智能决策等。

    智能推荐,发掘无限价值

    智能推荐是对平台大量数据的统计、计算、分析和挖掘等处理,建立数据模型,通过神经网络、深度学习、至小二乘法、SVM等智能算法,建立推荐模型,实现对整个数据中心进行分析和预测,来指导客户决策服务器下架、备件量、扩容量、缩容量、采购厂商等。例如某一型号服务器的故障率过高,维护费用相应增高,建议下架,又由于业务的增长,需要采购新的服务器,通过智能算法评估采购量,进行推荐。

    目前,浪潮依托自身技术优势,已自主研发了一系列自动化、智能化服务器管理软件集,从服务器上架、配置、部署、监控、故障分析等实现了全生命周期运维管理。其中ISPIM(浪潮物理基础设施管理平台)突破了大规模基础设施智能管理平台的分布式网格架构、高性能数据采集框架及智能分析系统、无状态管理技术,实现大规模服务器的全生命周期的智能管理。

加载中...

PHP网站源码木棉湾营销网站南联企业网站制作龙岗网站建设坪山营销型网站建设平湖营销型网站建设平湖SEO按天收费南联网页制作福永网站推广工具布吉seo网站优化福永百度竞价包年推广福永建站沙井seo网站优化布吉网站设计模板坪地网站制作设计深圳网站搭建宝安网站开发福田设计网站广州模板推广罗湖百搜词包松岗seo网站推广平湖seo优化盐田百搜标王双龙网站推广系统大浪网站推广工具沙井至尊标王松岗网站优化光明英文网站建设塘坑网站优化排名惠州SEO按效果付费南联网站关键词优化歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发 春山在望成都发生巨响 当地回应60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账 现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌 家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅:唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子19岁小伙救下5人后溺亡 多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人?开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

PHP网站源码 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化