支持健康检查选项的开启和关闭;. 支持查看卡的健康信息,包括设备信息、功率限制、温度限制、clocks 12、资源报表:支持以集群、资源组、节点维度进行计算资源的利用率及占用情况统计。支持以曲线图展示资源使用情况,包括:节点总数、CPU总数、CPU使用均值、CPU利用率均值/峰值、内存利用率均值/峰值,按照加速卡类型显示加速卡未用/总数、加速卡使用均值、加速卡利用率均值/峰值、加速卡显存利用率均值/峰值 13、任务报表:支持任务提交总数、任务平均运行时长、任务平均加速卡占用个数、人均任务数量的统计。支持以曲线图的形式展示每小时任务提交数。支持以柱状图的形式展示运行时长区间内(12小时内、24小时内、48小时内、超过48小时)的任务数 14、租户报表:支持整个集群中数据的统计,包括:管理员数量、开发人员数量、人均任务量、人均GPU卡时。支持按照用户和用户组统计资源使用情况,包括:任务总量、 CPU 已用核时、 CPU配额核时、 GPU 已用卡时、 GPU 配额卡时、 GPU 利用率、 GPU 显存利用率 15、机时报表:支持以用户、用户组为维度分别统计,包括:任务总量、任务总机时、 CPU 任务总核时、 GPU 任务总卡时。支持查看某个用户、用户组中每条任务的详细信息,包括:任务 ID、任务名称、用户、用户组、资源组、资源规格、节点列表、 CPU 核时、加速卡卡时、加速卡类型、提交时间、运行时间、完成时间、运行时长 16、计费管理:支持以资源组为单位定义CPU和加速卡的单价。CPU按核/时,GPU按卡/时定义单价;支持账单管理。支持按月、周、天、自定义时间段和用户(组)输出账单。账单包括:账期、作业总数、作业平均运行时长、CPU(核*时)、加速卡(卡*时)、消费金额;支持按任务查看账单明细,包括:任务ID、任务名称、用户、用户组、申请资源、节点列表、 CPU 核时、加速卡卡时、 CPU 机时费、加速卡机时费、任务提交时间、任务运行时间、任务完成时间、任务完成月份、运行时长、 CPU 单价、加速卡单价、资源组、任务机时费、任务等待时间 17、报警管理:支持报警信息查看,包括节点名称、报警名称、报警类型、报警等级、报警内容、报警资源、处理状态、报警时间、接收对象类型、接收对象、报警指标趋势 18、日志管理:支持所有操作日志记录信息,提供不同模块进行日志查询功能;支持不同的用户角色查看不同的日志,且提供模糊查询功能;支持日志导出功能 19、自动故障识别与处理:自动运维能够识别平台内已知常见故障,能够在故障发生时自动告警,并生成处理任务,自动进行故障处理 20、开发环境:支持创建交互式开发环境,包括Jupyter、web shell的在线交互开发。支持对接第三方开发工具(如VSCode、PyCharm) 21、性能监控:包括CPU、内存、加速卡(计算利用率、显存利用率、nvlink带宽)、网络IO(支持以太、IB、RoCE网卡)、磁盘IO的实时监控,提供页面化的实时动态趋势图展示 22、训练资源自定义配置:用户可通过页面的方式,指定任务使用的容器数量、加速卡数量、内存、指定不同的加速卡型号资源,并且可以实时查看训练日志,监控各容器内资源使用状况;同时提供服务端口开放功能,容器内服务端口自动映射至平台开放端口 23、训练作业容错:监控系统能够识别平台内的故障信息,平台能够自动识别非训练任务自身故障、硬件网络失效等第三方故障,自动对模型训练任务进行容错重启,从而避免第三方故障导致任务失败重复计算 24、工作流管理:支持用户编排工作流,可以自定义数据处理、模型训练过程。支持自定义运行周期、数据处理脚本、模型算法、模型参数、并行模式 25、模型导入:将生产训练好的模型按照不同模型类别、版本有序进行存储和管理,管理的维度有:模型名称、版本、场景、训练数据、训练镜像和脚本、模型文件、模型描述、参数信息(如batch size、learning rate、weight_decay、momentum等)和评估信息(如评估数据、评估镜像、召回率、准确率、精确率、F1值等);支持将符合技术标准的外部训练模型导入,在平台中进行统一管理 26、算法管理:支持算法的版本化管理,支持算法的创建、发布、共享和收藏。平台提供页面化的算法管理功能,包括算法名称、版本、镜像、脚本、环境变量、模型、资源规格、并行模式、算法描述等。支持用户将算法发布,设置共享范围为用户、用户组和全平台 套 1 外