昇腾生态硬核赋能！上交大攻克超长上下文推理难题，性能大幅跃升

2025-11-26 17:10:00

【科技快报网】随着大语言模型在文本分析、智能问答等场景的广泛应用，处理1M超长文本推理时，常常面临显存不足、运算速度卡顿的行业痛点，严重限制了超长文本场景的应用。近日，上海交通大学李健教授团队依托上海交通大学鲲鹏昇腾科教创新卓越中心的算力支持，基于vLLM-Ascend 推理框架研发出一套针对超长上下文推理的稀疏注意力 KV Cache 分层缓存管理系统。在昇腾 AI 软硬件平台的全方位赋能下，该项目成功破解单卡支持超长上下文推理的显存与性能双重难题，同时大幅提升吞吐量。

项目核心创新在于设计了 KV Cache 分级缓存集成机制。该机制先对推理任务进行实时分析，智能识别Top-K 重要块并集中算力处理，从源头提升计算效率；同时采用数据冷热分层存储策略，根据数据访问频率，将生成数据动态划分为高频热数据与低频冷数据，再针对性优化存储位置，减少资源浪费。这一机制的落地依托昇腾CANN异构计算架构灵活的动态调度能力，能精准控制冷热数据在显存与主存间的流转，大幅降低数据迁移开销。最终，该方案实现单卡流畅处理超过1M的超长文本推理任务，系统推理吞吐量超过39%，彻底突破传统系统在长序列处理上的显存与性能瓶颈。

同时项目进行了元数据结构优化与缓存机制设计，其中数据索引与掩码是关键支撑 —— 通过精简索引结构、合并掩码维护步骤，有效减少重复运算，使昇腾NPU算力更集中于注意力计算与文本生成等核心任务，提升硬件利用效率。相关优化已通过vLLM-Ascend推理框架灵活集成，保障了技术方案的顺利落地。

目前，该项目源代码已在 Gitee 社区中开源，后续将进一步推送到昇腾开源生态，合入GitHub社区 vLLM-Ascend 项目专区。此次技术突破，不仅为超长文本推理提供了高效解决方案，更印证了昇腾生态在AI创新中的赋能价值。未来，随着该系统在更多行业场景的落地，昇腾将持续为AI技术研发提供算力与技术保障，推动大语言模型在长文本分析、智能办公、数字孪生等千行百业的深度应用，加速人工智能产业化进程。

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:科技君

毕业不闲置！联想教育专享保值换新服务，让你的装备永远领先一步御芝林：构建“研发-生产-服务”三角体系，引领大健康产业数智化升级

		自动登录	找回密码
密码			立即注册

昇腾生态硬核赋能！上交大攻克超长上下文推理难题，性能大幅跃升

相关阅读

相关分类

热门关注