序号 | 技术要求内容 | 评分等级 | 是否需要附件说明 | 1 | 1.集群管理:提供了集群节点管理,远程开机/关机,远程登*,远程查看硬件警告信息;提供并行shell和并行拷贝,支持查看集群操作日志。集群管理软件要求当前最新版。 | 重要 | 否 |
2 | 2.集群监控:2.1. 系统主页提供集群状态的监控和查看:集群cpu使用率,内存使用率,硬盘使用率,网络吞吐,集群节点开关机和忙闲状态,集群队列状态,集群作业状态等。系统支持服务器指标load,CPU使用率,内存使用率,硬盘使用率,网络吞吐的监控。2.2. 系统支持服务器温度,能耗的监控。2.3. 系统支持服 (略) 络流量的监控。2.4. 系统支持GPU监控:实时和历史趋势图显示集群中节点GPU的使用率、GPU内存使用率、GPU温度等。2.5. 系统提供了各种监控指标load,cpu使用率,内存使用率,硬盘使用率,网络,作业数量等的热力图,系统支持在热力图上根据值区间进行节点的过滤。2.6. 系统提供了物理机架视图,视图以机架物理视图的方式显示机架中的节点。点击视图的一个节点,可以查看节点详情。2.7. 节点详情视图,节点详细列出了节点的静态配置信息(cpu,内存,硬盘,节点名等);节点详情显示节点各个监控指标的历史趋势图;节点详细列出了节点上正在运行的作业列表;节点详细列出了节点的当前报警记录。2.8. 系统提供了作业监控页面,可以直观查看集群中正在运行,等待以及结束的作业。作业详细信息包括:作业名,提交时间,结束时间,CPU数,CPU使用时间,GPU数,GPU使用时间,用户名,作业状态,队列等。2.9.系统提供了web shell,通过浏览器可以ssh登录集群节点并进行操作。 | 非常重要 | 否 |
3 | 3. 集群资源管理和作业调度功能:(投标时提供产品功能截图)3.1.支持Slurm调度器。3.2.队列管理:包括队列创建,显示,修改,移除;3.3.队列资源管理:包括添加新节点到队列,设置节点在队列中属性,显示队列中节点状态,节点的健康状态检查等。3.4.调度策略: 支持先进先出,公平共享,回填,抢占,资源预留,节点访问限制等多种策略,并支持自定义策略。 | 非常重要 | 是 |
4 | 4. 分布式文件系统管理功能:4.1.支持各种分布式文件系统:Lustre, GPFS, NFS等4.2.提供通过web浏览器方便的对进行文件系统的管理:文件夹和文件夹的创建、编辑、删除、上传、下载、重命名、排序和查看等4.3.文件空间隔离:每个用户有自己的文件空间,用户在web页面不能查看和修改其他用户的用户文件空间的文件. | 重要 | 否 |
5 | 5.AI作业:(投标时提供产品功能截图)在同一个集群中通过统一的资源调度,可以同时运行HPC作业和AI作业。5.1.平台支持多种AI计算框架,平台支持TensorFlow,Caffe,MXNet,Intel Caffe等AI框架。5.2.平台支持集群资源统一调度,支持多用户,多作业同时运行,通过调度器来给作业动态分配资源,支持单节点单GPU, 单节点多GPU,多节点多GPU以及多节点GPU,以及CPU/GPU混合等多种调度方式。5.3.支持分布式训练, (略) 支持的各种AI框架(TensorFlow,Caffe,MXNet,Intel-Caffe,PyTorch, Chainer, Scikit-Learn等),支持AI模型的多机分布式训练。提供的多机分布式的模板可以方便的提交分布式训练的作业。 | 重要 | 是 |
6 | 5.AI作业:(投标时提供产品功能截图)5.4. 基于容器实现对多种框架和一个框架多种版本的支持。比如支持TensorFlow,Caffe, MXNet等多种AI框架,支持TensorFlow 1.9, 1.10等多个版本。 (略) 上能创建和使用自定义镜像。 | 重要 | 是 |
7 | 5.AI作业:(投标时提供产品功能截图)5.5. 基于Jupyter的模型开发(投标时提供产品功能截图)--系统自带Jupyter镜像,镜像里面除了Jupyter还自带常用的AI框架和库。-- (略) 可以创建Jupyter运行实例,并访问和使用Jupyter。Jupyter实例可以使用CPU资源也可以使用GPU资源。--平台自带Jupyter Python2, Python3和R等。--平台支持Jupyter实例的持久化,实例可以操作共享存储上的文件和程序,在Jupyter实例中安装的软件包在下次启动后可以继续使用。 | 非常重要 | 是 |
8 | 6. 通过作业模板方便的提交模型训练的作业-- (略) 自带的AI作业模板,用户可以提交AI作业。--平台支持用户创建自定义作业模板, 用户创建的自定义作业模板只能被自己使用。--管理员可以创建和发布作业模板,管理员发布的作业模板,所有用户都可以使用。 | 重要 | 否 |
9 | 7. 作业监控和管理(投标时提供产品功能截图)支持实时查看AI作业运行状态和作业输出等,支持停止正在运行的作业, (略) 的web文件管理系统上传作业程序和下载作业运行结果。 | 非常重要 | 是 |
10 | 8. 集成了常用的AI模型:(投标时提供产品功能截图)提供图片分类,物体识别,物体分割,医疗图像分割,seq2seq,自然语言问答, (略) 络等7大类AI应用。每大类应用集成了常用的模型,比如Lenet, AlexNet, Googlenet,VGG, ResNet, Inception, Unet, Faster R-CNN, Mask R-CNN,memory network, seq2seq, Gan等.用户不需要写程序,只需要提供数据, (略) 提供的模板直接使用这些模型进行训练。 | 重要 | 是 |
11 | 9. 在保修期内管理软件免费版本升级。保修期内,如发生问题,中标方在收到招标方故障通知后,应在4小时内作出响应,需到现场时,应在24小时内派人到达招标方现场,48小时内修复故障。48小时内无法修复故障时,免费提供备用设备,直至故障修复。 | 非常重要 | 否 |