百度智能云联合昆仑芯、HAMi，落地双模式算力调度方案，提升算力利用率

2025-11-03 16:23:00

百度智能云混合云联合昆仑芯、HAMi（密瓜智能发起并主导的 CNCF 开源项目），正式推出基于昆仑芯 P800 的 XPU/vXPU 双模式算力调度方案 —— 该方案已率先在某金融客户的昆仑芯集群中落地，为智能客服、营销辅助等十余类 AI 业务提供兼具稳定性与灵活性的算力支撑。客户可在同一集群内灵活调用昆仑芯 P800 的整卡 XPU 与虚拟化 vXPU 资源，让国产算力既高效匹配业务需求，又实现资源的最大化利用。

1. XPU/vXPU 双模式调度方案，把集群中的昆仑芯 P800 算力用透

百度智能云联合 HAMi，基于昆仑芯 P800 构建「XPU 整卡 + vXPU 虚拟化」双模式资源调度体系：XPU 整卡模式通过拓扑寻优调度与健康度评估，实现「多卡单任务」的最优资源调度，保障大规模训练性能和稳定性，并避免资源碎片化；vXPU 虚拟化模式以多规格切分支持「单卡多任务」，最大化资源利用率，灵活适配推理、开发等轻量化场景。双模式协同发力，让昆仑芯 P800 的每一份算力「算尽其用」，为各类 AI 业务提供高效算力支撑。

XPU 整卡模式：拓扑寻优调度 + 集群健康度评估，保障大规模训练性能与集群稳定

在多卡训练等通信性能敏感场景中，调度策略直接决定集群长期可用性与性能稳定性。基于昆仑芯 P800 的物理拓扑特性，方案通过两层逻辑保障整卡模式的「高性能和高稳定性」。

其一，系统自动识别昆仑芯服务器「左右侧翼」物理分区，优先在单侧翼内调度资源，减少跨侧翼通信开销的同时，避免资源零散占用。

其二，当多个节点都能满足需求时，系统会评估调度前后对节点整体结构的影响，优先选择能保持或改善拓扑规整度的节点，留存更多完整拓扑单元，降低后续调度失败或回填导致的性能波动。

凭借「节点内拓扑寻优调度+集群内健康度评估」，运维团队不再需要频繁人工干预去「手动拼卡」，大模型训练可获得稳定通信性能，集群资源利用更紧凑。

vXPU 虚拟化模式：多粒度切分 + 显存自动对齐，用透每一分算力，简化管理难度

针对推理、开发测试、模型验证等轻量化任务的细粒度算力需求，vXPU 虚拟化模式为昆仑芯 P800 打造了「算力精准切分 + 便捷管理」的解决方案。

该模式支持多任务共享单张昆仑芯 P800 显卡，提供 1/4 卡（24GB 显存）、1/2 卡（48GB 显存）两种切分规格。实际使用中，用户仅需声明所需显存，系统便会自动向上匹配最优切分规格 —— 如申请 20GB 显存时，系统自动分配 24GB 规格，无需用户手动换算，大幅降低操作成本。

同时，为避免实例间干扰，方案引入「同规格共享」机制 —— 同一物理卡仅允许相同规格的虚拟实例共享，进一步简化了资源隔离与管理复杂度。

UUID 精准控卡：自动化打底，人工补位，特殊场景不「卡壳」

依托整卡模式的拓扑寻优调度、vXPU 虚拟化模式的显存自动对齐等自动化能力，日常算力调度已实现少干预甚至无干预。针对灰度测试、硬件问题复现等特殊场景，方案预留「人工调节通道」 —— 运维人员只需指定物理卡 UUID，即可直接选定或排除特定卡片。比如灰度发布新模型时，无需调动全量资源，指定部分卡片即可完成测试验证；硬件故障复现时，也能精准定位问题卡片进行调试，无需整机下线。

通过系统自动化调度与人工手动调节的结合，面对大模型训练、推理与开发等复杂场景，既能保障日常调度效率，又具备「因地制宜」的算力管理灵活性，轻松化解运维难题。

2. 结语

XPU/vXPU 双模式协同调度方案在金融行业的落地，是百度智能云混合云联合 HAMi 在国产 AI 硬件调度领域的重要实践 —— 既验证了「场景驱动调度策略」的技术创新价值，也展现了开源生态与企业服务结合的落地能力。

如需了解昆仑芯 P800 虚拟化完整方案，可参考项目文档：https://github.com/Project-HAMi/HAMi/blob/master/docs/kunlun-vxpu-support_cn.md

　　免责声明：本网站内容由网友自行在页面发布，上传者应自行负责所上传内容涉及的法律责任，本网站对内容真实性、版权等概不负责，亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

发布者:sophia

HarmonyOS 6华为天气智能体上线：主动提醒降温还懂每日穿搭！美的空调京东双11开门红豪夺TOP1！以“体验+服务升级”全面领跑

		自动登录	找回密码
密码			立即注册

百度智能云联合昆仑芯、HAMi，落地双模式算力调度方案，提升算力利用率

相关阅读

相关分类

热门关注