5万台服务器"体检"3分钟完成!浪潮信息AIOps新升级厉害了
北京2024年12月26日 /美通社/ -- 根据调研报告显示,体检大规模数据中心每宕机一分钟将会造成近1万美元的服务经济损失,而数据中心的器分宕机成本随着近年来数据中心规模的不断扩大还在不断攀升,除经济损失外,钟完宕机造成的成浪潮信业务中断对公司声誉有着不可估量的影响。"小病不治,息A新升大病难医",体检金融、服务互联网行业大规模数据中心通常每月都会为IT基础设施定期巡检,器分以及时发现可疑问题,钟完快速修复,成浪潮信这已经成为保障数据中心业务连续性的息A新升关键。 日前,体检浪潮信息全新升级数据中心服务器故障智能诊断AIOps技术。服务针对数据中心服务器日常巡检中,器分故障人工识别效率低,难以精准定位的问题,浪潮信息基于数百万台服务器运维管理经验,打造先进的AI模型算法,融合专家经验知识图谱,构建覆盖问题检测、诊断、修复到验证的全生命周期故障闭环管理。在互联网、金融等用户数据中心部署应用过程中,服务器故障智能诊断AIOps技术涵盖国内外众多厂商的上百种不同型号的IT设备的各类故障,5万+服务器规模的数据中心,故障排查时间从4小时缩短至3分钟,有效应对数据中心规模不断扩大带来的运维管理挑战,为数据中心的高效、精准、智能化运维提供了有力支撑,也为客户的业务连续性提供保障。 数据中心服务器运维"体检"两大难:人工效率低、故障识别难 随着AIGC、5G、物联网(IoT)等技术飞速发展,全球大型数据中心数量将以3.6%的年复合增长率增长,数据中心规模不断扩大,在这一过程中,服务器的代际及品牌也越来越繁杂,需要运维工程师每月甚至每天定期对服务器故障进行巡检修复,这对运维工程师的需求大幅增加,从而提升了企业运维成本;同时,随着越来越多的核心业务系统迁移到线上,业务对系统的即时性要求不断提高,而且"小病不治,大病难医",日常定期巡检已经是保障系统的持续稳定运行的关键。 一方面,在传统运维中,为预防系统宕机风险,运维人员会定期对服务器进行日常故障巡检,通过手动筛查后台运行日志识别各类服务器故障,但这种人工方式的故障识别低效且时效性差。数据中心中服务器种类繁杂,品牌、型号、代际多样,加之海量的故障日志和报警信息交织,使得人工分析过程耗时长达数小时甚至数天。这种方式难以快速响应业务需求,严重影响系统的可用性和故障恢复效率。 另一方面,据数据统计,大型数据中心的实际运维中服务器最容易出现故障的三个部件分别是内存、硬盘、CPU,传统运维检测工具主要围绕在这些部件的监测上,但实际运维中仍然有一些小概率故障会出现在风扇、网卡、电源以及其他的元器件上,而这种小概率故障事件往往隐藏在复杂的运行数据中,传统工具难以精准捕捉这些信号。由于此类问题信号弱且不易察觉,未及时修复可能引发连锁反应,扩大故障影响范围,从而延长修复周期并降低系统的可靠性。同时,一些复杂场景下的疑难故障排查高度依赖专家经验,然而,运维团队往往缺乏足够的专家资源,导致问题长期得不到解决。这不仅拖延了系统恢复时间,还进一步影响业务的稳定性和用户体验。 打造"识别-诊断-处理"一体化AIOps服务器智能诊断体系 针对数据中心传统故障运维的挑战,浪潮信息以数百万级服务器统一管理经验,全新升级数据中心AIOps智能诊断技术。AIOps智能诊断技术兼容多品牌、多型号及不同代际服务器产品,通过轻量化设计将诊断模型部署至服务器端,实现了关键指标秒级感知与响应、故障根因精准诊断、解决方案秒级呈现的全链条智能,构建了覆盖问题检测、诊断、修复到验证的全生命周期故障闭环管理,全面助力数据中心智能、高效的运维管理。 数据中心AIOps智能诊断技术引入了时序数据分析与分离算法,从关键部件,时序时间以及使用情况三个维度进行交叉比对,在故障发生时实时筛选关键日志,打破了传统单一维度、单线程的诊断模式。通过特征提取与异常模式匹配,让检测的颗粒度更加精细同时更加精准,以便快速发现异常项,将传统故障诊断的时长从小时级缩短至分钟级甚至秒级。而这种海量数据的多维度的感知,就好像是我们的五感一样,不再是通过单一的触觉或者是嗅觉判读,而且通过"望闻问切"的方式全景化、自动化的快速定位问题节点,大幅提升故障响应效率,保障系统的高效运维。 作为全球领先的算力基础设施提供商,多年来浪潮信息在实践中积累了海量的故障处理经验,因此浪潮信息基于海量历史数据构建了故障诊断模型,并融合决策树、深度学习等多种算法,对隐匿的小概率故障进行精准识别,故障诊出率超过98%,高故障率部件故障诊断准确率可达95%以上,小概率故障诊断准确率提升至90%以上。同时,系统具备自学习能力,能逐步优化诊断规则,应对未知故障类型,有效提高系统稳定性与可用性。 浪潮信息将资深运维专家的经验转化为知识图谱,并与机器学习模型深度融合,推出"口袋模型"功能。该模型能够在秒级内提供最优解决方案和清晰的故障处理指引,帮助运维团队快速应对疑难问题,减少对专家支持的依赖,提升整体运维效率。 当前,该AIOps技术已广泛应用于金融、互联网等行业大规模数据中心,应用结果显示,在5万+规模的数据中心,服务器故障排查时长从4小时缩短至3分钟,对于一些小概率故障的诊断更能见微知著,有效避免了业务中断;同时,对于计算模块、存储模块等存在复杂关联关系的疑难故障问题,故障处理时间减少80%以上,极大降低了运维团队的工作压力。这些创新成果不仅提升了故障响应效率和诊断精准度,还增强了系统的稳定性与业务连续性,为企业数据中心的高效运维提供了全面技术支持,树立了智能化管理的行业标杆。
- 最近发表
- 随机阅读
-
- 德技优品门窗品牌新零售百万投入,精 准引流!
- 冰火交替,气候究竟在变冷还是变暖?|世界气象日
- 2023铝合金门窗品牌排行榜,十 大影响力品牌有哪些?
- 江苏南京:保障校园及周边食品安全
- 泉州九部门联合出台方案促进家禽业高质量发展
- 见证环保新引力,高品质产品是品牌更好的背书
- 好消息!5月15日起泉州公交开启空调营运
- 泉州市“拒绝跨境赌博”主题宣传周活动启动
- 喜报!中建西部建设新疆有限公司荣 获预拌混凝土行业2项荣誉
- 河北邢台:全力保障市民用药和质量安全
- 2021年泉州市危化品和烟花爆竹安全监管要点“出炉”
- 2023年新设经营主体3273万户 持续提质扩容
- 宁波体校:“杨倩教练虞利华讨要奖金”等发布的消息与事实不符
- 江苏南京:全力保障学校食堂食品安全
- 2023年新设经营主体3273万户 持续提质扩容
- 中消协发布预付式消费权益保护报告
- 人造肉9月登陆中国 十年后产值或达万亿
- 2024年广东全省法院结案近270万件,存案数创新低
- 一场大雨过后 泉州秋冬春连旱结束
- “鲇鱼”Kimi搅动AI大模型?丨科创要闻
- 搜索
-
- 友情链接
-
- 陆道培医学团队在Blood杂志发表CD7 CAR
- BRI发出强势信号:在股价回调时启动回购
- SGS助力中兴通讯通过SBTi两项审验
- TÜV南德亮相ASTRON生态发展研讨会,共话可持续发展新路径
- 阿克苏诺贝尔技术创新落地中国,人工智能助推粉末涂料行业碳减排
- IOTE 2024上海物联网展顺利闭幕,一座城市与一场展会的双向加速
- 三载"无虑人生",助力持续推动惰性淋巴瘤规范化诊疗
- Microland 宣布获得 Juniper Networks 的全球 Elite Plus 资格,将推出网络即服务产品
- Exabytes向中国市场推出高端数字解决方案套件,助力商业巨头拓展东南亚市场
- Rendeavour 将高速互联网拓展至肯尼亚塔图市周边地区
- FILA ICONA三里屯店开业,杨幂同款凡尔赛宫合作新品限量发售
- 坎帕里重返戛纳电影节庆祝和支持电影制作,启动了 "我们是电影院" 活动
- SIS International 推出独家个人护理产品咨询、战略咨询和市场研究解决方案
- AEVUM奥斯芬联袂Swissline施维兰,盛启"白钻肌肤 臻美之选"逆时空之旅
- IOTE 2024上海物联网展顺利闭幕,一座城市与一场展会的双向加速