企业级方案

网盟科技500万预算深度学习及渲染集群方案A100 A6000

2023-02-10 11:26:43 gx 130



深度学习训练节点规格参数数量
WMG4S2G08INTEL Xeon 8380(2.3-3.4GHz 40核)*2/DDR4 RECC 3200MHz 2T(64G*32)/1T M.2 NVME 4.0*1/
NVIDIA Tesla A100 40G PCIE*8/2*1GB 千兆 板载/1*IPMI(远程管理)/1*100GB IB高速网卡/
额定2000W 2+2 冗余/4U机架式
4
配件NVIDIA 2-Slot 桥接器 (支持A6000/A100)12*448



高逼真图形渲染节点规格参数数量
WMG4S2G08INTEL Xeon 8380(2.3-3.4GHz 40核)*2/DDR4 RECC 3200MHz 2T(64G*32)/1T M.2 NVME 4.0*1/
NVIDIA RTX A6000 48G PCIE*8/2*1GB 千兆 板载/1*IPMI(远程管理)/1*100GB IB高速网卡/
额定2000W 2+2 冗余/4U机架式
3
配件NVIDIA 2-Slot 桥接器 (支持A6000/A100)4*312



管理及登录节点规格参数数量
WMG4S2G01INTEL Xeon 4310*2/DDR4 RECC 3200 128G(64G*2)/SSD 480G SATA*1/8T HDD SATA*1/2*1GB千兆 板载/1*IPMI(远程管理)/1*100G IB 双口/550W 1+1 冗余/2U 机架式 含导轨1



大规模存储节点规格参数数量
WMG4S2T01INTEL Xeon 4210*2/DDR4 RECC 3200 256G(64G*4)/SSD 480G SATA*2/14T HDD SATA*22/2*1GB千兆 板载/1*IPMI(远程管理)/1*100G IB 双口/1000W 1+1 冗余/2U 机架式 含导轨1



集群管理配套软件1、集群管理
(1)★资源调度:采用轻量级容器虚拟化技术和Kubernetes管理平台,实现对CPU、内存、磁盘、GPU等异构计算资源的虚拟化统一管理,支持为容器以直通方式挂载GPU等异构计算资源;
(2)资源监控:管理集群中GPU服务器及GPU卡的运行状况,资源使用情况,包含CPU/内存/存储的总数、使用数和剩余数;显卡总数,各个型号的块数,分别统计用于独享、共享、vGPU三种情况的显卡使用量;
(3)★资源管理:支持多台服务器的GPU卡资源统一纳管,统一分配;支持单机单卡,单机多卡,多机多卡以及GPU共享、GPU切割、Mig三种方式分配资源;以任务方式分配计算资源;任务完成计算资源回收;
(4)存储系统:分布式存储管理:支持Glusterfs/Longhorn/Ceph/LeoFS等,支持将多台服务器本地的硬盘组成分布式存储使用;
(5)AI框架:集成多种深度学习各种框架(如TensorFlow,PyTorch,Caffe,Keras,horovod,ray,Matlab等)用户模型开发、模型训练等; 支持自定义框架;
2、用户端功能 
(1)★开发环境:支持用户快速创建深度学习使用的容器环境,环境包括主流的学习框架(TensorFlow/PyTorch/MATLAB等),多种资源套餐(单机单卡、单机多卡、多机多卡、单卡共享和切分),SSH访问接口,手动/定时快照,以及动态变更环境配置等功能。
支持用户查看集群各个节点的资源剩余情况包括GPU型号和个数;可以查看GPU、CPU、内存的实时使用率,显存、温度等信息。
(2)★模型训练:训练任务支持创建TensorFlow、Pytorch、horovod、ray等框架的分布式并行训练,训练完成资源自动回收释放。支持作业可视化管理、多版本管理、训练参数管理、作业克隆等功能。
★超参调优:支持基于容器的超参数自动调优功能。支持Grid、Hyperband、TPE等8种自动搜索算法,多参数同时调优,分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围、恢复策略以及保存试验参数基于参数克隆试验。可以实时查看调参曲线输出内容和yaml信息。支持 TensorFlow、MXNet、PyTorch、XGBoost 等多种机器学习框架。
(3)★模型管理:支持统一的模型管理功能,集中管理所有在平台训练完成的模型,导入并管理本地模型,支持模型多版本管理,以及模型发布为服务的功能。
(4)★模型服务:支持将训练好的AI模型部署成在线服务(Web Service),提供在线UI预测推理能力,为用户提供可调的用API接口;支持选择vGPU和Mig套餐,支持设置模型服务自动停止时间、服务实例个数,服务的启动停止等。
(5)数据管理:用户按需申请存储空间大小,提供scp访问/Web访问,支持对个人存储的扩容/重命名/修改密码/共享存储/删除等功能;数据标注工具服务化,通过平台可以在线完成数据标注,标注后的数据可用于开发环境或训练任务,同时平台也支持标注工具的扩展。
(6)★数据标注工具服务化,通过平台可以在线完成数据标注,标注后的数据可用于开发环境或训练任务,同时平台也支持标注工具的扩展。
(7)★镜像仓库:用户拥有自己的个人私有镜像仓库,支持在线上传个人镜像,平台自动适配封装个人镜像,支持在线设置镜像标签以及下载、多版本管理、镜像共享。
3、管理端功能
(1)★组织管理:三层组织架构管理,如超级管理员、组织管理员、成员等,超级管理员可对组织进行资源配额,计费充值,设置菜单权限(自定义用户端的功能模块)。
(2)★用户管理:用户信息查看,批量启用禁用,超级管理员设置用户优先级(5>4>3>2>1),优先级高的优先调度资源,如果资源不足,抢占优先级低的用户资源。
(3)工单管理:平台用户可以提出问题工单,管理可以查看回复用户工单。
(4)产品管理:开发环境可对平台全部用户创建的存储、环境、项目、训练任务、AutoML、模型、推理服务进行统一管理,包括不限于对上述模块的查看、停止、删除等操作。
(4)运维管理:统一管理和调度节点上的算力资源,支持接入多个数据中心以及划分多个逻辑集群,支持节点添加与移除,支持查看节点上的任务详情,实时监控各个节点的负载状况。
(5)配置管理:管理员可以开启资源审核,配置用户注册必填项,设置邮箱或者短信提醒方式,设置开发环境、模型训练等模块可用的节点数上限。
(5)★财务管理:超级管理员可以创建各种规格的资源套餐,自定义GPU使用方式(独享、共享、vGPU、Mig),设置CPU核数、内存数、GPU块数,给资源设定计费单价,查看充值记录和消费记录。
(6)安全中心:新增管理员、启动管理员、删除管理员,对管理员赋予角色权限;对平台账户操作记录日志进行查看审计。
(7)系统设置:管理员可以设置平台系统的变化与logo。
1



集群部署配件材料规格参数数量
1图腾42U 服务器机柜 600*1200*2055mm1
2KVM切换器 16口 VGA 19英寸1
3Mellanox InfiniBand MSB7890-ES2F 32口/配套光缆1
424口千兆交换机1
524口千兆电4口万兆三层交换机1


解决方案