集群系统扩容(XJD2025070700019)采购公告
- 2025-07-08
项目名称: 集群系统扩容(XJD2025070700019)采购公告
项目编号: XJD2025070700019
招标公司: 西安交通大学
项目地区:陕西 西安
项目名称 集群系统扩容 项目编号 XJD2025070700019
公告开始日期 2025-07-08 11:00:00 公告截止日期 2025-07-11 12:00:00
采购单位 西安交通大学 付款方式 货到安装、调试、验收合格后,付全款。
签约时间要求 发布竞价结果后1天内签订合同 到货时间要求 发布竞价结果后1天内送达
预算总价 ***** 币种 人民币
收货地址 陕西省西安市长安区****
现场踏勘
供应商资质要求 无
采购清单 1
采购商品 采购数量 计量单位 附件
显卡 4.00 无
品牌 不限
型号 不限
预算单价 *****
规格参数 1、扩容材料:RTX 5880 ADA 4个+GPU主机连接线+软件功能授权。2、在思腾合力AI开放平台中重新调整所有计算节点及GPU分布和集群架构,重新划分资源池;3、扩容节点重新部署思腾合力AI开放平台,软件验收达到以下功能;算力节点至少支持裸机安装、虚拟机两种方案、其中裸机与虚拟机安装提供定制操作系统ISO镜像,ISO系统镜像安装过程中自动部署管理节点服务。2、底层架构:底层全自研,非k8s,非基于k8s等开源调度系统二次开发,并解决在限制任务内存、硬盘过程中,因算法占用内存或硬盘超过配额限制而重启的问题。3、框架支持:预装主流学习框架,例如:tensorflow、caffe、mxnet、pytorch、paddlepaddle等主流的学习框架。4、在线开发:支持在线模型开发功能,提供JupyterLab、JupyterNoteBook、VS Code,Terminal等在线编程环境。5、分布式训练:支持单机多卡、多机多卡等分布式训练机处理,支持MPI,Horovod等训练模式。6、资源虚拟化:采用轻量级容器虚拟化技术,实现对CPU、内存、磁盘等资源的虚拟化和统一管理。针对人工智能领域的特定需求,提供GPU等异构计算资源管理接口,实现对GPU等异构计算资源的虚拟化统一管理,支持为容器以直通方式挂载GPU等异构计算资源。7、无卡模式:当GPU数量不足时,允许用户当前关机的任务可以使用无GPU卡模式启动,任务ID以及任务中的数据不丢失。8、缓存盘:支持在本地计算节点为每个任务提供有配额限制的存储资源,用户可扩容,减少因远端存储故障或性能问题导致用户训练效率差,并支持对关机超过限制时间的任务缓存盘进行清空操作,限制时间后台管理人员可配置。9、配额管理:支持NFS、GlusterFS、CephFs、Minio等存储,并提供配额功能。10、训练配额:支持对用户使用资源规格数量进行限制。11、AI训练设备管理:支持添加AI训练设备,并通过BMC控制设备关机、重启等操作。12、存储设备管理:支持添加NFS、GlusterFS、CephFs、Minio等存储,同时可以配置存储绑定的计算节点设备。13、资产管理:支持定时收集用户服务器资产,提供资产报表导出功能,同时支持对服务器的耗电量进行统计。14、告警事件:支持通过BMC收集服务器故障日志。及时将故障通知给用户。15、工单管理:支持用户在使用过程中遇到问题及时通过工单进行沟通,方便运维人员进行处理。16、用户管理:支持主用户与子用户功能,子用户只需要专注于业务,方便团队内部或者小组内部使用。17、数据标注:支持图片数据标注功能,内置基于web的图片数据标注功能,可多点圈选图片特征区域,一次指定多标签。18、数据集管理:支持用户对数据集更新,删除、克隆、版本管理等功能;数据集支持配置图像等类型,可基于共享存储路径进行归档管理。19、模型管理:支持模型管理,模型创建、模型删除和展示模型状态等,通过模型管理可以更方便的对不同模型进行处理、更直观的了解当前模型的运行情况支持训练管理。
售后服务 1、集群系统安装调试完毕,试运行一段时间,要保证集群系统稳定,所有计算节点及管理节点无任何故障发生。2、投标时标明产品的品牌及型号,并提供原厂项目授权及三年期售后服务承诺函;3、中标当日原厂技术人员免费送货上门,实施软硬件部署联调,为保证服务及时有效,要求西安本地供货商。
我要报价