报表功能. (1).报表导出格式支持:Excel,PDF,HTML。 (2).操作报告:集群操作日志表:可以查询过去一段时间集群的操作日志,操作日志以 Excel 形式导出。每条操作日志记录了,哪个用户在哪一时间点进行了什么操作。 (3).作业报告: 作业统计表:可以查询过去一段时间内,以天为单位,每天作业的数量、作业使用 CPU 的数量、作业使用 CPU的时间、作业使用 GPU 的数量,作业使用 GPU 的时间。作业详表:可以查询过去一段时间内,以作业为单位,每个作业包括:作业名,作业提交时间,结束时间,作业状态,GPU 数量,GPU 使用时间,GPU 数量,GPU 使用时间)。 用户作业统计表:只查询指定用户的作业,并以作业统计表的形式显示。 用户作业详表:只查询指定用户的作业,并以作业详表的形式显示。 账户作业统计表:只查询某一账户下的用户提交的作业,并以作业统计表的形式显示。 账户作业详表:只查询某一账户下的用户提交的作业,并以作业详表的形式显示。 (4).报警报告 报警统计表:可以查询过去一段时间内,以天为单位,每天不同报警级别的报警记录的数量,以及每天总的报警数量。 报警详表:可以查询过去一段时间内,以报警记录为单位,每个报警记录的包括:报警事件,报警时间,报警节点,报警等级,状态。 (5).集群报告:可以对集群作业进行统计和分析:作业完成数,排队数,作业排队比例。作业最大运行时间,平均运行时间;作业最大排队时间,平均排队时间。作业使用 CPU 的平均值,作业使用 CPU 的最大值。作业运行时间的分布图,作业使用资源数的分布图。作业运行和排队的历史趋势图。 6、计费账单功能: (1).计费报告管理员可以查看所有用户,或者选定用户一定时间段内的计费。而普通用户能查询自己一段时间内的计费;可以查看不同资源的计费,比如 CPU,内存,存储等的花费。可以查看不同队列的计费。可以查看一个时间段花费的历史趋势图。管理员可以查看花费 Top5的用户, (2).日账单和月账单 普通用户和管理员可以下载日账单和月账单。 7、作业提交和管理功能: (1).系统自带 mpi 等的作业模板,用户可以通过 web 的作业模板提交作业。 (2).支持用户创建自定义作业模板,用户通过 web 页面可以方便的生成新的自定义作业模板,并使用新的自定义模板提交作业。 (3).支持管理员创建自定义模板,管理员通过 web 页面可以方便生成新的自定义作业模板,并发布作业模板供所有人使用。 (4).提供对外的 API,用户可以基于对外的 API 进行二次开发。 (5).支持 OpenHPC, 可以通过 lmod 根据程序的需要动态导入不同的 OpenHPC 模块使用,比如导入 mpich, openmpi,mvapich,intelmpi,或者导入 OpenHPC 中的各种性能测试的工具。 (6).提供 webshell,支持用户通过浏览器 ssh 到登录节点,然后在浏览器通过调度器命令行提交作业。 (7).提供了 Singularity 容器,支持使用 Singularity容器运行作业。 (8).作业管理:作业显示(用户,作业名,作业状态,提交时间,结束时间,队列,CPU 数等),重新运行等;支持作业输出在 web 页面的实时显示。 8、●AI 作业管理功能: (1).在同一个集群中通过统一的资源调度,可以同时运行 HPC 作业和 AI 作业。平台支持多种 AI 计算框架,平台支持 TensorFlow,Caffe,MXNet,Intel Caffe 等 AI框架。平台支持集群资源统一调度,支持多用户,多作业同时运行,通过调度器来给作业动态分配资源,支持单节点单 GPU, 单节点多 GPU,多节点多 GPU 以及多节点 GPU,以及 CPU/GPU 混合等多种调度方式。支持分布式训练,针对平台支持的各种 AI 框架(TensorFlow,Caffe, MXNet,Intel-Caffe,PyTorch, Chainer, Scikit-Learn等),支持 AI 模型的多机分布式训练。 (2).基于容器实现对多种框架和一个框架多种版本的支持。比如支持 TensorFlow,Caffe, MXNet 等多种 AI 框架,支持 TensorFlow 1.9, 1.10 等多个版本。用户在平台上能创建和使用自定义镜像。投标文件中提供产品功能截图证明。 (3).基于 Jupyter 的模型开发:系统自带 Jupyter 镜像,镜像里面除了 Jupyter 还自带常用的 AI 框架和库。通过平台可以创建 Jupyter 运行实例,并访问和使用 Jupyter。Jupyter 实例可以使用 CPU 资源也可以使用 GPU资源。平台自带 Jupyter Python2, Python3 和 R 等。投标文件中提供产品功能截图证明。 (4).通过作业模板方便的提交模型训练的作业,通过平 台自带的 AI 作业模板,用户可以提交 AI 作业。投标文件中提供产品功能截图证明。 (5).作业监控和管理功能:AI 平台支持实时查看 AI 作业运行状态和作业输出等,支持停止正在运行的作业,支持通过平台的 web 文件管理系统上传作业程序和下载作业运行结果。投标文件中提供产品功能截图证明。 9、集成常用 AI 模型: 集成常用的 AI 模型:如图片分类,物体识别,物体分割,医疗图像分割,自然语言问答,对抗网络等 AI 应用,用户不需要写程序,只需要提供数据,就可以通过提供的模板直接使用这些模型进行训练。 10、AI 模型训练: (1).支持端到端的模型训练,提供数据集管理,模型训练,模型发布端到端的支持。数据集管理,支持图片分类,物体识别,物体分割三种类型数据集的管理,提供在线标注工具,支持这三种类型数据集的在线标注。 (2).模型训练:内置图片分类、物体识别、物体分割用到的模型,用户不需要写程序,使用内置的模型,发起一个模型训练。一个模型训练会发起多个并行作业,每一个作业...
报表功能. 可查看在线、离线终端的统计报表,和在线、离线记录,方便跟踪设备运行情况。
报表功能. (1)支持根据通信流量、威胁统计、DDOS等来源数据库自定义报表模板;