责任编辑:
小林
时间:2023-06-26
来源:转载于:远算云学院
责任编辑:
小林
时间:2023-06-26
来源:转载于:远算云学院
01 研究背景
近些年来高端计算资源的性能增长迅速,特别是千兆级计算系统的出现,使得用户代码可普遍调用数以万计的CPU内核。计算性能的高速发展为计算流体力学(CFD)并行计算的应用带来了一系列重大挑战。为此,CFD通用仿真软件开发了新的并行计算技术和优化功能,被欧洲高级计算合作计划(PRACE)用于验证大规模计算的基准案例,并验证了其优异的并行计算表现、高扩展性和可靠性。
PRACE项目中,CFD通用仿真软件应用的大规模计算案例为DARPA2潜艇的绕流,计算流体沿潜艇首部至末端的摩擦系数。流动基于潜艇全长,雷诺数为3.89*107,自由流体的流速为9m/s,出口压强为2.01*105Pa。由于案例中湍流强度较高,选择了高雷诺数模型进行计算。 如图1所示,流场的网格为四面体与金字塔体网格组成的非结构化网格。为了计算潜艇周围的边界层流动现象,y+=30,边界层由五层金字塔网格组成。 网格无关性验证结果表明,网格大小为20万时计算结果已足够准确。仿真计算一直进行到流场达到稳态,得到阻力系数随流体至潜艇首部距离的变化曲线,并与实验结果进行比较,如图所示:
图2 阻力系数随离潜艇首部距离变化曲线
可以看出计算得到的阻力系数在潜艇首部附近相较实验结果较小,但在潜艇末端位置较为吻合。整体而言,CFD通用仿真软件的计算结果具有较高的准确性,可进一步进行其计算性能的分析。
在PRACE计划初期,CFD通用仿真软件将其线性求解器——共轭梯度求解器(CG)替换为更为优化的代数多重网格共轭梯度求解器(CG_MG)。优化过后的求解器通过减小迭代过程中的浮点数运算和运算时间,从而加快迭代求解器的收敛速度。对于优化后的求解器而言,其计算复杂度与计算规模几乎呈线性关系,并且在求解收敛过程的稳定性也获得改善。
为了评估CFD通用仿真软件在线性求解和前处理阶段上的计算性能,对于上述计算案例,将计算案例的网格量增加至5.7百万和1.07亿个,并对比了两种线性求解器,在IBM的Blue Gene/P和Cray XT4两个超算上运行。
不同网格量上,CFD通用仿真软件使用CG、CG_MG两种求解器,并在不同核心上进行的计算性能如图3所示:
图3 CG与CG_MG计算性能比较(左:网格量5.7M;右:网格量107M)
结果表明,对于1.07亿网格的大规模计算,CG_MG求解器的求解速度明显更快。然而,对于网格规模为5.7百万的计算案例,在使用4096个核计算时,CG求解器的计算速度要比CG_MG快30%左右,这主要是因为CG_MG求解器中,网格粗化受到网格分区边界的限制。这样虽然能避免为每一层网格使用耗费计算资源设计重新分区方案,但当网格数目较小,网格面积与体积之比较高时,会限制网格的粗化程度,降低计算速度。
此外,在不同超算上,求解器的计算速度也不相同,例如对于网格规模为5.7百万的算例,CG_MG求解器在Blue Gene/P上的计算速度要比在Cray XT4上快4.6倍。这是因为Blue Gene/P的算力稍小于Cray XT4,但互联速度更快,在计算负荷与内部信息交换负荷之间达到了平衡。
当今,储存资源的增长已经难以适应CPU资源的增长,因此更少的核心内存为如今高性能计算(HPC)的结构趋势。对于CFD计算而言,该趋势意味着并行计算性能和分区效率的提高已经越来越重要。在Blue Gene/P超算上,计算1.07亿网格规模的算例,比较不同分区软件(ParMETIS、SFC、PT-SCOTCH和METIS)的并行分区结果下的计算效率,结果如图4所示:
图4 在不同分区网格软件处理下的CFD通用仿真软件并行计算性能 结果表明,METIS的分区结果在CFD通用仿真软件下并行计算性能最优,而性能其次的PT-SCOTCH也可作为METIS的替代软件。
具备可扩展性、同时功能强大的CFD通用仿真软件,由于在前处理、求解过程和输入/输出(I/O)功能上的优化表现,被PRACE项目认证并入选为用于检验超算能力的CFD软件。