华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案

2025-11-28 12:32:02

AI产业已从“追求模型能力极限”转向“追求推理体验最优化”，推理体验决定用户与AI的交互质感。当前推理应用快速发展，Token调用量爆发式增长，推理遇到“推不动、推得慢、推得贵”三大瓶颈，成为产业规模化发展的拦路虎。在有限算力下，长序列输入导致首Token时延（TTFT）增加，甚至超长序列超出模型上下文窗口限制；随着并发数增加，推理吞吐开始下降，任务频繁卡顿；历史对话和行业知识的重复调用造成算力浪费，加大推理成本。如何优化推理效率，是AI产业突破发展瓶颈的关键。

算力的有效利用对AI推理性能和成本优化发挥着至关重要的作用，是企业核心竞争力。算力平台需适配多元存储、Kubernetes集群及推理框架，但硬件生态碎片化、资源分配僵化、调度缺乏AI任务感知、运维可观性不足等技术兼容难题，正严重制约推理应用发展。

近日，华为数据存储与「DaoCloud 道客」联合推出了AI推理加速联合解决方案。该方案融合了华为UCM（Unified Cache Manager）推理记忆数据管理技术和道客d.run算力调度平台，围绕大模型历史数据，实现KV Cache数据池化管理，以资源的精细化管理和智能调度提升算力利用率，为AI推理加速提供全方位技术支撑。

道客d.run算力调度平台可支持算力与显存资源的细粒度切分及池化，通过多种调度策略实现算力资源的最大化利用。调度器具备拓扑感知能力，可优化任务在xPU间的通信效率，保障AI任务稳定低耗运行。平台提供企业级运维支持，提供多租户隔离、资源配额管理、完整的监控告警及计费计量等功能，满足企业级使用与运维需求。同时具备多元生态兼容性，适配NVIDIA、华为昇腾、寒武纪等多种品牌AI算力，支持TensorFlow等主流AI框架，借助Kubernetes的CSI无缝对接华为OceanStor AI存储，简化管理并为AI任务数据读写提供稳定支撑。

华为UCM是以KV Cache为核心，构建多级缓存空间的分层管理与智能流动机制，实现数据在高性能缓存HBM、内存DRAM和外置OceanStor A系列存储的分级缓存和查询，确保推理记忆知识全量保存。并且，UCM还融合多项创新加速算法：自适应全局Prefix Cache支持公共前缀、历史对话和RAG知识块多种拼接组合场景的复用，通过以查代算，最大程度改善TTFT；全流程稀疏加速算法提供Prefill阶段的超长KV分片卸载和增量稀疏，以及Decode阶段的动态稀疏，提升长序列推理吞吐。

在Qwen3-32B模型上，测试问答助手场景，开启Prefix Cache和RAG Chunk功能。测试数据表明，首Token时延降低约55%，且随着序列长度越长，TTFT降低效果越明显，通过“以查代算”的方式，避免了大量历史对话信息的重复计算。

图1 问答助手场景对比开关UCM的TTFT

测试长文档推理场景，设定序列长度输入32K+输出1K，开启Chunk Prefill和GSA稀疏化功能。测试数据表明，在并发数为30时，TTFT最大降低47%，端到端吞吐最大提升75%。

图2 长文档推理场景对比开关UCM的TTFT

图3 长文档推理场景对比开关UCM的E2E吞吐

关闭UCM，当并发数超17时，请求开始排队；开启UCM，当并发数超32时，请求开始排队。在以上情况下，开启UCM对比关闭UCM场景，并发能力提升88.24%。

图4 长文档推理场景对比开关UCM的并发能力

目前，该方案正在电力、金融等行业试点。未来，双方将持续深化技术合作，推动技术迭代与行业适配，助力AI技术在更多行业的落地应用。

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:快科技

华硕Z890/B860主板有颜有实力双12带你畅玩新游2025科创大会「人工智能创新项目·掘金汇」成功举办

		自动登录	找回密码
密码			立即注册

华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案

相关阅读

相关分类

热门关注