解决方案

为AI设计特定的HPC解决方案——EG840G-G10集群HPCs
2017-11-20
AI技术发展的两个“大基本”:
一、大数据,获得越来越多的数据。
如今,数据量越来越大,对于语音识别来讲,前几年,安擎如果能拿到一万小时的标注后的语音识别数据,就会非常满足。但是今天安擎已经拿到十万小时,甚至更多标注过的数据,在未来安擎肯定可以获得更大量的数据,数据的增加是不断完善、向上的过程。
二、大模型,精致的模型。
这些模型有能力通过这些数据获得精确的结果。对于模型,如果大家关注云、图象识别、语音识别等技术就会知道,模型精度会越来越高、越来越深、需求也会越来越大,最后大数据大模型,两方面叠加,对计算量的需求也会提到很高的高度。
但目前获得廉价的、可标注的数据非常困难,同时在获得这些数据之后如何快速的进行数据处理将变得非常棘手。比如如何在语音识别里汲取音频数据的特征等等。
另外,模型的数据量会越来越大,待处理的计算量也会越来越大,这就需要安擎有更为高效并行的计算方式,安擎将其称为分布式的计算方式;而这对计算平台的要求也会更为苛刻,因此,需要针对此设计专门AI,应用于特定的高性能计算平台。

EG840G-G10集群HPCs

安擎在整个AI生态里面,已经做了很多工作,从顶层架构到端对端的方案,更进一步,针对计算硬件和深度学习框架方面,安擎特别研发了EG840G-G10这款产品。这是为AI特别设计的精度很高服务器,它最多可以达到90T,与传统服务器不一样的是,它可以提供多达四个高速网络的支持,如果每一条网络,安擎连接的话,可以多达400TB的连接。

另外,基于这款服务器,安擎希望数据中心对于不同的应用要用不同的服务器硬件,因此,在这其中,安擎支持各种各样的硬件以及GPU计算设备,再者,这款服务器设计有一个特别之处,它在机器后端提供了两个16条线的PCRE接口,这两个接口连在一起,可以提供翻一番的计算能力。
 
对于安擎现在GPU计算设备来说,不能指望一台服务器就可以解决全部计算问题,通常情况下会搭建一个集群,安擎通过高速网络来连接,在EG840G-G10这样的设备里面,可以提供一百到四百GB的带宽,因为这款服务器面对的是数据中心众多用户。
另外,服务器在数据中心或者机房里面的时候,对环境温度有一个要求,机器过热会死机,对此,安擎通过高效的、智能的设计,让服务器的可控温度高达45度;同时提供一种混合方式,还可以进一步的提升效率和性能。
这个服务器内部包含了八块GPU,GPU里面可以用非常轻量的来做系统引导,通过这种方式极大的降低数据中心的花费。通过数据对比,这不仅仅是简单的翻倍性能,直接是2.5倍,这就是高速的连接所带来计算性能的好处。
再者是方案的框架。通过比较发现,Caffe-MPI模型只能运行在单服务器上,不支持多服务器,做模型训练,需要好几周时间。为了解决这个需求,针对Caffe框架,安擎设计了一套并行版的Caffe,多个服务器提供高速的,分布式的计算方案。
针对并行版的开发,EG840G-G10做了有针对性的优化,未来单个服务器内部,GPU个数会越来越多,针对这种特定的硬件架构这种情况下,为了得到最好的性能,安擎改变设计思路,让GPU服务器之间的连接是通过高速网络来连接的,但是GPU内的连接是通过PCIE。PCIE目前比高速网络快很多。考虑到这个特点,安擎在单个服务器内部采用这种高速的通信方式,NCCL。在服务器之间,通过MPR来做,同时为了更进一步的降低服务器之间的通信频率,把服务器的通信都控制在通信内部,降到很低的程度,这就是安擎如何降低通信的一种方式。
在每个服务器内部,安擎给出四个GPU或是八个GPU,主GPU概念是一个虚拟的概念,他所做的工作和安擎做的都是一致的。因为在深度学习模型训练过程中,反向传播的时候,每一层的梯度值被计算出来之后,需要把这些梯度值发送到所有的设备上,从而对梯度进行更新。EG840G-G10在发送的过程中,如果没有一个主GPU,网络带宽需要把四倍的模型做交互。而现在这种设计下,如果有主GPU,节点只通过主GPU进行交互的话,网络带宽的压力只会到最初设计的四分之一,所以通过这种设计,可以把节点之间带宽的需求直接降低下来。