解决方案

安擎机器学习平台产品介绍
2017-11-24

 
应用场景
GPU服务器已被广泛应用于机器学习领域
 
工业与学术界的数据科学家已将 GPU 用于机器学习以便在各种应用上实现开创性的改进,这些应用包括图像分类、视频分析、语音识别以及自然语言处理等等。
海量训练数据的出现以及 GPU 计算所提供的强大而高效的并行计算促进了机器学习的广泛应用。
与单纯使用 CPU 的做法相比,GPU 具有数以千计的计算核心、可实现 10-100 倍应用吞吐量,因此 GPU 已经成为数据科学家处理大数据的处理器。
 
科研机构、初创企业在机器学习领域的需求
快速部署机器学习软件平台
GPU池化后按需分配,动态扩容
支持主流深度学习框架,秒级启动
数据集资源框架间共享
 
主要功能

安擎机器学习平台主要功能
安擎机器学习平台为用户建设大规模的机器学习软件提供了全方位的解决方案。平台从基本业务需求出发,将CPU资源、内存、GPU资源、存储资源虚拟化后进行统一管理,结合不同深度学习框架(如:Tensorflow、Caffe),实现快速创建机器学习应用,聚焦于算法本身,更好地管理IT设施、优化运维,实现IT服务等级承诺。
优势1:快速部署
在10分钟内离线状态完成单个节点的安装,并且提供节点的动态增加和删除功能,帮助运维管理员快速建立GPU集群。
优势2:五步创建应用
基于容器技术,秒级创建GPU应用,如Caffe、Tensorflow
系统级负载均衡,冗余支持
运行状态实时监控,节点故障快速迁移
优势3:镜像定制/分发平台
很多用户会使用自己需要的平台,比如基于某个操作系统,不同机器学习框架,开放不同服务端口,我们针对不同的软件有提供不同的应用模板,方便用户选择操作系统后,再选择需要的应用(比如SSH、Tensorflow、Caffe...)后即可生成需要的应用,并发布到平台内,可以供平台调用使用。
优势4:自我故障恢复
一旦应用发生故障,集群会通知客户异常状态,并试图重新恢复应用为可用状态。特别是在关键的多副本的应用中,单个节点发生故障时,集群会将应用迁移到其它节点上,不会影响到我们的服务。
优势5:节点规模动态扩展
节省初期投资成本,根据开发需求不断扩展节点,节点增加集群不停止,并且实现系统负载均衡。
 
解决方案
 
 

方案优势特点
安擎机器学习智能管理平台已在多个项目中得到实际验证,最大的节点规模可以至上千个节点。
其功能能够完全满足各种主流的机器学习应用的需要,可以帮助人工智能企业和研究所快速搭建平台,聚焦于机器学习算法研究和应用开发,在底层平台的驱动和软件库层面已经进行了足够的软件性能优化。
其核心的技术采用最近几年兴起的容器技术,该技术对于性能消耗是极小的,在应用的部署上可以达到秒级创建的性能。
针对于机器学习的不同架构需要,通过镜像定制和分发平台,帮助客户快速制作属于自己应用需要的镜像并分发到智能管理平台的本地镜像库,供应用和服务来调用。
 
成功案例
需求概述
部署了20台GPU集群环境,每台GPU服务器承载4块GPU卡
需要一套集群管理系统,解决从集群部署到资源分配和监控的整个生命周期内的问题
机器学习的架构和算法众多,后台数据较多
优势是算法实现,但缺少运行平台搭建经验
解决方案
部署了安擎机器学习平台后,图形化地部署、运行、监控容器(Container),并且集群能够提供高可用、可伸缩、负载均衡等特性
可灵活切换不同的机器学习架构(Caffe、Tensorflow、Keras等)
Tensorflow分布式运行,效率很高