大数据时代,算力不仅改变了人们生产、生活方式,更成为科技进步和经济社会发展的关键“底座”。从太空探索,到人类基因测序、医药研发,再到消费、出行,都需要强大的算力处理海量数据。
该超算中心属于国家级计算中心,利用超强的并行计算能力,在科学研究、工业创新、商业金融、国家和社会安全以及社会与公共服务领域,都发挥重要作用。
除了针对科学研究的高性能计算系统外,超算中心还需具备商用辅助计算系统以满足各行业对算力的需求。
- 项目需求 -
高性能:超算中心最核心的服务能力是算力输出,因此需要具备优质的智算服务、先进的计算能力。
安全可靠:作为国家级计算中心,需要具有稳定可靠的算力设备,避免突发事件对数据的破坏。
灵活扩展:算力集群需要与网络、存储等节点链接,因此需要更灵活的扩展能力。
易维护:出现故障,单独排查运维成本高,因此需要打造管理集群,简化运维操作。
- 解决方案 -
安擎针对超算中心商用辅助计算的需求,依托数十台EG840-G30 4U服务器部署辅助算力集群系统。
·EG840-G30·
EG840-G30是专为计算密集型应用场景推出的新一代服务器,具有高性能、高可靠、高扩展的特点。
√ 高性能
· 采用第三代英特尔® 至强® 可扩展系列处理器(TDP 270W),每颗 CPU 最大提供 64 Lane PCI-E 4.0 总线;
· 在4U的空间内可支持10片全高全长双宽专业GPU卡,单U算力可达1560TFLOPS。
√ 高可靠
· 通过检测、控制并持续纠正错误和故障,而不是通过强制重置 GPU 来提高其正常运行时间和可靠性;在处理错误和故障逻辑中,运用归因、隔离、遏制等策略针对 MIG 环境,确保GPU在高性能计算环境中的安全;
· 配置 2000W 铂金级 2+2 冗余电源,防止瞬间掉电,提供更稳定可靠的系统电源。
√ 高扩展
· 配置12个PCI-E4.0 插槽,可搭配 100G 以太网卡和Infiniband 网卡,组建低延时高扩展的存储与计算网络。
√ 易管理
· 集成 IPMI 功能,可以对服务器进行远程操作和维护,有效提高产品可靠性和稳定性;
· 智慧BMC远程管理,提供零接触运维,提高运维效率;支持 IPMI 和 KVM Over IP 高级管理功能。
- 客户价值 -
灵活扩展,高速的存储计算集群,满足辅助计算需求;
持续稳定的算力输出,打造可靠的算力底座;
数字化管理,降低管理运维成本。