找回密码
 立即注册
科技快报网 首页 科技快报 业界资讯 查看内容
华兴资本王力行:预见AI,从技术创新走向产业变革——基础共识之上的非共识同根同心,守望相助——中国企业驰援香港火灾爱心速递以实践为笔,共绘蓝图 | 易视界携手南阳医专开启“订单班”校企合作新篇章华为联合东南大学发布科研样板点,树立教育数智化升级标杆《逃离塔科夫》上架Steam 华硕B850主板双12轻松玩《仁王3》双12实机演示 华硕X870主板带你抢先看华硕Z890/B860主板双12玩转金摇杆最佳游戏《光与影》2025科创大会「人工智能创新项目·掘金汇」成功举办华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案华硕Z890/B860主板有颜有实力 双12带你畅玩新游华为小艺亮相央视总台《2025科创大会》,打造Agent时代人机交互新范式高频科技超纯水运维服务:护航安全运营,助力降本增效执笔生态进化,腾易科技的“连接者”阳谋强强联合!文远知行+Uber携手落地中东首个纯无人Robotaxi商业化运营别再东奔西走借会员了!鸿蒙有礼爱奇艺会员年卡免费抽!旧手机也有福利领!升级鸿蒙6后,我用知乎严选年卡重启深度阅读鸿蒙有礼这把玩这么大,爱奇艺的年卡会员直接送?供应链安全最优解:长鑫七大模组直击 OEM 痛点当墨迹天气遇见鸿蒙,智慧气象如何重塑你的生活?御芝林:构建“研发-生产-服务”三角体系,引领大健康产业数智化升级

华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案

2025-11-28 12:32:02

AI产业已从“追求模型能力极限”转向“追求推理体验最优化”,推理体验决定用户与AI的交互质感。当前推理应用快速发展,Token调用量爆发式增长,推理遇到“推不动、推得慢、推得贵”三大瓶颈,成为产业规模化发展的拦路虎。在有限算力下,长序列输入导致首Token时延(TTFT)增加,甚至超长序列超出模型上下文窗口限制;随着并发数增加,推理吞吐开始下降,任务频繁卡顿;历史对话和行业知识的重复调用造成算力浪费,加大推理成本。如何优化推理效率,是AI产业突破发展瓶颈的关键。

算力的有效利用对AI推理性能和成本优化发挥着至关重要的作用,是企业核心竞争力。算力平台需适配多元存储、Kubernetes集群及推理框架,但硬件生态碎片化、资源分配僵化、调度缺乏AI任务感知、运维可观性不足等技术兼容难题,正严重制约推理应用发展。

近日,华为数据存储与「DaoCloud 道客」联合推出了AI推理加速联合解决方案。该方案融合了华为UCM(Unified Cache Manager)推理记忆数据管理技术和道客d.run算力调度平台,围绕大模型历史数据,实现KV Cache数据池化管理,以资源的精细化管理和智能调度提升算力利用率,为AI推理加速提供全方位技术支撑。

道客d.run算力调度平台可支持算力与显存资源的细粒度切分及池化,通过多种调度策略实现算力资源的最大化利用。调度器具备拓扑感知能力,可优化任务在xPU间的通信效率,保障AI任务稳定低耗运行。平台提供企业级运维支持,提供多租户隔离、资源配额管理、完整的监控告警及计费计量等功能,满足企业级使用与运维需求。同时具备多元生态兼容性,适配NVIDIA、华为昇腾、寒武纪等多种品牌AI算力,支持TensorFlow等主流AI框架,借助Kubernetes的CSI无缝对接华为OceanStor AI存储,简化管理并为AI任务数据读写提供稳定支撑。

华为UCM是以KV Cache为核心,构建多级缓存空间的分层管理与智能流动机制,实现数据在高性能缓存HBM、内存DRAM和外置OceanStor A系列存储的分级缓存和查询,确保推理记忆知识全量保存。并且,UCM还融合多项创新加速算法:自适应全局Prefix Cache支持公共前缀、历史对话和RAG知识块多种拼接组合场景的复用,通过以查代算,最大程度改善TTFT;全流程稀疏加速算法提供Prefill阶段的超长KV分片卸载和增量稀疏,以及Decode阶段的动态稀疏,提升长序列推理吞吐。

在Qwen3-32B模型上,测试问答助手场景,开启Prefix Cache和RAG Chunk功能。测试数据表明,首Token时延降低约55%,且随着序列长度越长,TTFT降低效果越明显,通过“以查代算”的方式,避免了大量历史对话信息的重复计算。

图1 问答助手场景对比开关UCM的TTFT

测试长文档推理场景,设定序列长度输入32K+输出1K,开启Chunk Prefill和GSA稀疏化功能。测试数据表明,在并发数为30时,TTFT最大降低47%,端到端吞吐最大提升75%。

图2 长文档推理场景对比开关UCM的TTFT

图3 长文档推理场景对比开关UCM的E2E吞吐

关闭UCM,当并发数超17时,请求开始排队;开启UCM,当并发数超32时,请求开始排队。在以上情况下,开启UCM对比关闭UCM场景,并发能力提升88.24%。

图4 长文档推理场景对比开关UCM的并发能力

目前,该方案正在电力、金融等行业试点。未来,双方将持续深化技术合作,推动技术迭代与行业适配,助力AI技术在更多行业的落地应用。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:快科技

相关阅读

微信公众号
意见反馈 科技快报网微信公众号