;
国际高性能体系结构研讨会(International Symposium on High-Performance Computer Architecture)创办自1995年,是计算机体系结构领域的四个顶级会议之一。2025年该会议将在美国拉斯维加斯举办。智能计算机研究中心有两篇文章被HPCA 2025录取。
论文《Make LLM Inference Affordable to Everyone: Augmenting GPU Memory with NDP-DIMM》共同第一作者为智能计算机课题组博士生刘炼和赵世新,指导教师为王颖研究员和韩银和研究员emc易倍。
Hermes是一个专为大语言模型(LLM)本地部署设计的低成本近存扩展系统,有效应对了LLM本地部署中的关键挑战。随着LLM在代码生成、机器翻译和聊天机器人等任务中的出色表现,其高昂的部署成本成为广泛应用的主要障碍。传统LLM部署依赖于昂贵的服务器级GPU和大容量HBM存储,这限制了其在更多场景中的普及。
Hermes系统通过创新性地利用近数据处理单元(NDP)增强的DRAM DIMM,大幅提升了消费级GPU的性能,为在经济实惠的硬件上部署LLM提供了解决方案。Hermes系统巧妙地利用了参数分布的冷热特性和近存计算的优势,突破了现有解决方案中主机与GPU内存之间带宽限制的性能瓶颈。为充分结合GPU的计算能力和NDP-DIMMs的存储能力,该研究首先提出了一种适应性的异构计算策略,将LLM中的“热”神经元映射到计算效率高的GPU上,而将“冷”神经元卸载到存储容量大但计算能力有限的NDP-DIMMs上。其次,该研究设计了一个轻量级预测器,实时预测和调整神经元的分区,采用基于窗口的在线调度机制保持多个NDP-DIMM模块之间的计算负载平衡。与现有的基于卸载的推理系统相比,Hermes在常用的LLM上实现了平均75.24倍的性能提升,为LLM的部署和应用带来了新的机遇。此外,Hermes能够以约5%的成本,达到与配备昂贵服务器级GPU和大容量HBM存储的LLM推理系统相近的性能水平。
图1 Hermes System : 基于DIMM近存的低成本LLM推理系统扩展
论文《LAD: Efficient Accelerator for Generative Inference of LLM with Locality Aware Decoding》的第一作者为智能计算机课题组博士生王浩然,指导教师为韩银和研究员和许浩博副研究员。
大语言模型(LLM)自回归解码由于键-值缓存(KV cache)随着序列长度线性增大,在长序列生成任务中存在着访存瓶颈,影响了推理速度和能效。为解决这一问题,LAD利用大多数位置的注意力分数在多次解码中的数值局部性,设计了将键-值缓存压缩为固定大小的中间缓存的算法。LAD统计已生成的序列中每个位置的历史注意力分数最常出现的区间,并据此压缩键-值缓存。在每次解码计算中,LAD只需要访存中间缓存以及少量未落在最常出现区间的键-值,从而显著减少注意力机制的访存量。在加速器架构方面,LAD分模块实现了所提出的算法中的主要步骤,并组成了流水线。LAD高效地实现了对中间缓存的动态维护,将键-值缓存的访存减少转化为注意力机制乃至端到端的LLM解码推理的吞吐及能效提升。实验表明,与原始模型生成的序列相比,LAD生成的序列的平均ROUGE-1相似度为97%。当序列长度超过2048时,与A100 GPU相比,高配置的LAD加速器在注意力层实现了平均(几何平均)10.7倍的加速和52.4倍的能效提升。对于端到端的推理,LAD实现了平均2.3倍的加速和13.4倍的能效提升。
图2 LAD System : 基于局部性感知解码的高效大模型推理加速器
智能计算机研究中心简介emc易倍体育官方入口
智能计算机研究中心瞄准国家重大需求,以“一个核心,两个平台”作为发展思路,即以研制国际领先的智能计算机为核心任务,发展成为智能计算机构建的新原理、新结构、新方法和领域专用处理器等关键芯片的攻关平台,成为智能计算机系统研究优秀人才汇聚和成长的平台。坚持“应用牵引,创新驱动”,充分发挥中科院计算所在计算机体系结构等领域的学科、大机器和大芯片设计、高层次人才聚集、高水平国际合作等方面的独特优势,结合国家在智能计算机研究领域的布局和具体战略需求,通过在智能计算机设计的基础理论、体系结构基础方法等开展源头性和颠覆性创新,力争将中心打造成为一个在国际上具有显著学科特色、具有影响力的智能计算机新型研究团队。精彩内容回顾:极光智能机搭载发射成功,2个月内第二次部署喜报 | 极光1000星载智能计算机搭载成功入轨极光试剑,初展锋芒——极光1000星载智能机在珠海航展获得关注CCF芯片大会Chiplet论坛:什么芯片适合芯粒等七个问题解读智能计算机研究中心4篇论文被ASPLOS 2024接收,3篇论文被DAC 2024接收