
发布日期:2025-03-03 14:57 点击次数:192
跟着AI大模子考试和推理需求的爆发式增长,智算中心网罗的高效性与踏实性成为决定AI产业发展的中枢身分。信而泰凭借自主研发的CCL(聚合通讯库)评估器具与DarYu-X系列测试仪,为智算中心RoCE网罗提供精确评估有假想,助力企业冲破算力瓶颈,开释AI倾盆能源!
什么是智算中心
智算中心(AIDC,Artificial Intelligence Data Center)是故意为东谈主工智能应用提供算力相沿的高性能数据中心,是东谈主工智能时代与云狡计、大数据、物联网等当代信息时代深度会通的家具。它基于最新的东谈主工智能表面,遴荐前沿的狡计架构,为AI模子的考试、推理和应用提供深广的算力做事、数据做事和算法做事。
智算中心界说
狭义界说:智算中心是“机房+网罗+GPU做事器+算力诊治平台”的会通基础方法,是传统数据中心的升值性蔓延。
广义界说:智算中心是“算力+数据+算法”的会通做事,是激动AI产业化和产业AI化的迫切引擎,亦然传统云数据中心的智能化升级。
智算中心中枢功能
算力做事:提供高性能的狡计智力,相沿GPU、FPGA、ASIC等异构狡计芯片,知足AI模子考试和推理的高并发需求。
数据做事:提供数据经管、存储和优化做事,相沿大畛域数据的高效处理。
算法做事:提供预考试大模子、行业算法库等,相沿机器学习、深度学习等AI应用。
资源诊治:通过智能诊治平台,已毕算力资源的无邪分派和高效欺诈。
为何须须评估智算中心网罗
对智算中心的RoCE网罗进行评估测试,是为了确保其粗略高效、踏实地相沿大畛域AI考试任务。具体原因包括:
考据性能:确保网罗具备低延迟、高朦拢量,知足智算中心对高性能的需求。
优化可靠性:通过测试发现潜在问题,升迁网罗的踏实性和容错智力。
资本效益:评估RoCE网罗的性价比,弃取最优有假想。
相沿散布式考试:考据网罗在大畛域散布式AI任务中的进展,优化数据传输效果。
诱惑运维:提前发现问题,优化运维政策,减少故障风险。
智算中心网罗评估器具-CCL
使用聚合通讯流量来评估智算中心网罗的RoCE(RDMA over Converged Ethernet)性能,主要有以下几个原因:
聚合通讯是智算中心的关节特征:智算中心的业务(如AI大模子考试)依赖于高度同步的聚合通讯操作(如AllReduce、Broadcast),这些操作条目低延迟和高带宽的网罗相沿。
聚合通讯对网罗性能条目极高:聚合通讯操作(如AllReduce)需要高朦拢量和低延迟,RoCE通过RDMA机制粗略权臣裁汰通讯延迟并提高带宽欺诈率。
RoCE性能告成影响智算中心效果:RoCE网罗的性能告成影响散布式考试任务的通讯效果,进而影响扫数智算中心的加快比和效果。
聚合通讯流量粗略全面评估RoCE性能:聚合通讯涵盖了多种通讯样式(如点对点、播送、多点通讯),粗略全面测试RoCE网罗的带宽、延迟、拥塞放置和负载平衡智力。
RoCE在智算中心的平淡应用:RoCE时代因其灵通性、互操作性和资本效益,在智算中心中平淡应用。评估其性能有助于优化建树,股民升迁举座性能。
奈何使用仪容CCL评估智算网罗
使用信而泰Renix软件平台提供的CCL Traffic Emulation向导,测试建树已毕通过向导建树,生成复杂的考试流量。针对不同AI考试数据包,评估在非拥塞网罗、拥塞网罗各项贪图。对比网罗正常和网罗故障情况下各项组网贪图,比如任务时分、考试时分、算法带宽、总线带宽、收发报文数目、时延、抖动、乱序等关节数据。
CCL测试拓扑
通过使用仪器仪容模拟GPU通讯,不错有用裁汰测试资本,同期简化AI测试的复杂性和爱戴难度。这种方法使AI测试从传统的搭建着实做事器和使用价钱腾贵的GPU来测试RoCE交换机,漂浮为欺诈通用仪容仪器进行测试。这一瞥变不仅大幅检朴了测试资本,还颐养了考据表率,为国产AI的崛起提供了有劲相沿。
以下以8卡400G GPU模子考试为例,对比Ring Allreduce模子在非拥塞和拥塞网罗环境下不同数据量(Data Size)的参数进展。通过履行数据对比,不错直不雅地体现CCL(Collective Communication Library,聚合通讯库)在评估网罗性能方面的迫切风趣。
CCL贪图
如下图所示,使用Ring Allreduce在不同考试任务在非拥塞网罗中体现。
如下图所示,使用Ring Allreduce不同考试任务在拥塞网罗(PFC)中体现。
如下图所示,使用Ring Allreduce不同考试任务在拥塞网罗(ECN+DCQCN)中体现。
· Latency and Jitter by Data Size贪图
如下图所示,使用Ring Allreduce在不同考试任务在非拥塞网罗中体现。
如下图所示,使用Ring Allreduce不同考试任务在拥塞网罗(PFC)中体现。
如下图所示,使用Ring Allreduce不同考试任务在拥塞网罗(ECN+DCQCN)中体现。
对比不同场景下考试时分(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)。
对比不同场景下算法带宽(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)。
对比不同场景下总线带宽(无拥塞/拥塞+PFC/拥塞+ECN/DCQCN)。
通过信而泰Renix软件平台的CCL Traffic Emulation功能,粗略精确评估RoCE网罗的关节贪图,为AI网罗的评估提供细巧化数据相沿。对比实验的结果可全面评估RoCE交换机的性能。该有假想通过模拟着实AI责任负载,粗略在复杂流量和大畛域组网场景下,全面测试RoCE交换机的性能进展,并精确识别组网瓶颈,升迁评估的精确性和实用性。
高密度智算网罗测试措置有假想
信而泰推出的X2-100G-12QSFP28、X5-400G高密度智算非拥塞网罗(ROCEv2)测试仪是一款专为高端路由器、交换机以及数据中心交换机假想的高密度测试平台。该测试平台充分知足运营商、网罗开拓制造商和企业用户在高速以太网和智能狡计网罗测试业务中对增长和将来发展的需求。其高密度假想使得它在有限的空间内提供深广的测试智力,是应酬将来网罗挑战的理思弃取。
客户价值
超高密度:单机相沿400G/200G/100G多速度,12端口无邪建树;
全条约兼容:相沿RoCEv2、表率以太网,适配异构网罗环境;
智能化测试:一键生成复杂流量模子,3分钟完成网罗健康度会诊。
X2-100G RoCE测试板卡
高密度400G测试仪一体机