王梓恒

第一篇论文

论文题目

Improving Cluster Utilization Through Adaptive Resource Management for Deep Neural Network and CPU Jobs Colocation

论文出处

IEEE Transactions on Computers ( Volume: 72, Issue: 12, December 2023)

论文方向

计算机系统

论文摘要翻译

尽管深度神经网络（DNN）模型主要通过 GPU 进行训练，但许多企业和研究机构会构建共享的 GPU 集群。这些集群承载 DNN 训练作业、DNN 推理作业以及 CPU 作业（传统领域作业）。DNN 训练作业依赖 GPU 进行核心计算，CPU 完成辅助计算；部分 DNN 推理作业可仅依靠 CPU 运行，而其余则需同时利用 CPU 和 GPU。我们的研究表明，分配给训练作业的 CPU 核心数对其性能存在显著影响，且 DNN 推理作业可利用 GPU 节点上的有限的 CPU 核心。为此，本文首先刻画了典型深度学习模型在训练作业和推理作业执行阶段的 CPU 核心需求特征，并探究其对 CPU 侧其他资源竞争的敏感性。基于该特征分析，我们提出自适应调度系统 SODA，包含自适应 CPU 分配器、多阵列作业调度器、硬件感知推理作业部署器及实时竞争消除器四大模块。实验结果显示，SODA 可将 GPU 利用率平均提升 19.9%，同时确保所有 DNN 推理作业满足服务质量目标，且不降低 CPU 作业的调度性能。

论文总结翻译

多租户 GPU 集群同时承载 DNN 训练作业与传统 CPU 作业。本文针对语音、计算机视觉（CV）、自然语言处理（NLP）领域的 DNN 模型训练过程，系统刻画了其 CPU 侧的资源需求与竞争特征，同时探索了利用 GPU 节点上的 CPU 核心支撑 DNN 推理作业的可行性。基于上述分析，提出调度系统 SODA，来提升 GPU 集群的资源利用率。SODA 能够为 DNN 训练作业匹配 “恰好够用” 的 CPU 核心数，规避 CPU 侧资源竞争；同时为 DNN 推理作业动态选择最优计算资源。实验结果表明，SODA 可将 GPU 利用率提升超过 19.9%，且所有 DNN 推理作业均能在服务质量目标范围内提供服务，CPU 作业的调度性能也未受影响。

第二篇论文

论文题目

ISPA: Exploiting Intra-SM Parallelism in GPUs via Fine-Grained Resource Management

论文出处

IEEE Transactions on Computers ( Volume: 72, Issue: 5, 01 May 2023)

论文方向

计算机系统

论文摘要翻译

新兴 GPU 包含多个流多处理器（SM），且每个 SM 由 CUDA 核心和张量核心（Tensor Core）组成，其中CUDA 核心负责通用计算，张量核心专为加速深度学习中的矩阵乘法运算设计。然而，一个 GPU 核函数通常仅使用其中一种核心，导致另一种处理单元闲置。尽管已有研究通过核函数共存调度提升 GPU 利用率，但均未能充分利用 SM 内 CUDA 核心与张量核心的并行性。为此，本文提出细粒度资源管理方案 ISPA，通过设计 “持久块”（persistent block）和 “弹性块”（elastic block）解决共存核函数间的线程槽与共享内存竞争，并采用寄存器分配方法缓解寄存器冲突。这些资源管理技术同时适用于白盒核函数（源码可访问）和 cuDNN 黑盒核函数。在 NVIDIA 2080Ti GPU 上的实验结果表明，与先前的共存调度方案相比，ISPA 使白盒工作负载的系统吞吐量提升 15.3%，使基于 cuDNN 的工作负载吞吐量提升 7.1%。

论文总结翻译

本文通过提出 ISPA 方案，填补了基于张量核心 GPU 利用率优化的研究空白。GPU 核函数通常仅占用 CUDA 核心或张量核心中的一种，导致另一核心闲置。ISPA 通过设计持久块与弹性块解决线程槽和共享内存竞争，并采用寄存器分配方法优化资源占用；基于这些技术，ISPA 结合编译阶段处理与运行时调度，实现使用张量核心的核函数（TC 核函数）与使用 CUDA 核心的核函数（CD 核函数）的共存调度，从而挖掘 SM 内并行性。实验结果表明，ISPA 的吞吐量优于先前的共存调度方案，对白盒工作负载的吞吐量提升 15.3%，对基于 cuDNN 的工作负载提升 7.1%。