找回密码
 立即注册
科技快报网 首页 科技快报 快报 查看内容
聚焦创新与人工智能融合:北纬诺贝巅峰对话迎来诺奖得主重磅分享圆满收官|穿山甲机器人2026春季新品发布暨全球合伙人招商大会启新程人气爆款 华硕ROG B850吹雪S NEO主板今日开售重磅发布|章鱼动力完成近5000万美元首轮融资,首发SYNTH深思架构定义物理AI新范式AI Show 2026盛大开幕!月泉仿生应手Y-Hand M2重磅发布,斩获示范应用创新奖!AI超级筒洗烘塔京东首发 TCL与京东达成战略合作从“百城送龙虾”到“龙虾全家桶”,百度智能云推动OpenClaw走向产业落地85W满血轻薄本,首款端侧天禧AI PadClaw的AI平板登场:小新领衔,联想新品点燃春季囤游戏前先囤性能 华硕B860主板带你横扫Steam春季特卖京东联合13大洗地机品牌,发起"拒绝虚假测评"雷霆行动!因聚而升 融智有为 | 华为政企展车与华为坤灵展车联合发车聚焦万物互联时代:看“HPC+AI”如何赋能产业从有到“优”腾讯最新财报聚焦 AI 布局,网传QQ秘密内测频道“AI开放计划”热烈祝贺易视界连续10年荣膺“3·15”诚信承诺企业AWE2026 聚焦哪些厨电新趋势?华帝线上营销总经理张梅:数字化+全链路懂创作者的生产力,从CES载誉归来!联想YOGA Pro 16 Aura重磅登场AI赋能,破界封神!硬核AI平板性能狂飙:联想AI平板 拯救者Y700五代正式发布vLLM-Kunlun Meetup 北京站圆满举办 百度百舸携手社区推动国产芯推理迈向好用联想集团发布业界首个能量密度达1000 Wh/L的电池,下半年将应用于AI PC中辉激光携两款碟片激光器重磅新品亮相2026慕尼黑上海光博会

vLLM-Kunlun Meetup 北京站圆满举办 百度百舸携手社区推动国产芯推理迈向好用

2026-03-18 13:16:45

【科技快报网】3月15日,由百度智能云联合vLLM社区、红帽共同主办的“vLLM-Kunlun:大模型推理工程化实践分享”Meetup 在百度科技园楼圆满落幕。本次活动汇聚了来自百度智能云、vLLM 社区等 9 位技术专家,围绕国产芯片与vLLM框架的适配,从架构设计、性能优化、生态落地三大维度展开深度分享,全面展现了百度智能云在国产大模型推理领域的技术积累与生态布局。

百度百舸拥抱开源生态,打造“高性能、易开发全生态兼容”的国产芯推理方案

会上,百度智能云主任架构师黎世勇在开场演讲中指出,国产芯片成功的关键在于拥抱开源生态,而非再造生态。基于这一理念,百度智能云深度参与vLLM社区建设,借助vLLM的 Device Plugin机制Python EntryPoint,将昆仑芯的适配工作收敛到底层算子层,大幅降低开发门槛。目前vLLM-Kunlun已完成对Qwen、DeepSeek、GLM、MiMo等 50 余款主流大模型的推理适配,为开发者提供了“高性能、易开发、全生态兼容”的国产芯片推理方案。

百度智能云高级工程师董新宇以“像用GPU一样用昆仑芯”为主题,展示了vLLM-Kunlun的 CUDA-like开发体验。通过对齐PyTorch CUDA接口和算子注册机制,开发者在昆仑芯上的开发流程与GPU环境基本一致。他以MiMO-Flash-V2和Qwen3.5的适配为例,演示了从模型注册、算子支持到精度校准、性能优化的全流程实操。

全栈性能攻坚,充分释放昆仑芯硬件潜能

在性能优化专场,多位技术专家从编译、算子、框架、量化等维度,系统展示了百度智能云在释放昆仑芯硬件性能上的全栈攻坚成果。

vLLM核心维护者、红帽高级AI工程师Luka Govedič介绍了vLLM-compile的编译优化机制。通过Torch.compile,vLLM能够跨硬件平台自动生成高效内核。他同时透露,vLLM 社区正在推进vLLM IR项目,将算子语义与实现分离,以提升跨平台可扩展性。

华南农业大学副教授邱少健从异构计算视角,分享了在昆仑芯上RMS Norm算子及Qwen3 模型的优化实践。团队通过SIMD向量化、缓存结构优化等技术手段,在特定场景下实现最高60倍的性能提升,为产学研协同创新提供了范例。

百度智能云高级工程师包乾系统介绍了框架层的极致优化。针对Kernel Launch开销大、框架层效率低等痛点,团队基于vLLM-Kunlun Plugin,对FFN、MOE、Attention等核心模块进行定制化算子适配。以split_norm_rope_neox 融合算子为例,将Kernel Launch 次数从 4 次缩减为1次,Prefill吞吐提升8%,充分释放了昆仑芯P800的硬件潜力。

百度智能云高级工程师李卫则系统梳理了昆仑芯的端到端量化体系。从自研量化工具链到 vLLM-Kunlun 框架侧的INT8/INT4推理支持,再到硬件层量化算子的定制开发,百度智能云构建了覆盖“模型 - 框架 - 硬件”的全栈量化能力。在Qwen 3-235B-A22B模型上,INT8 量化带来约1.5倍的吞吐提升;针对昆仑芯的量化存储格式优化,将模型启动时间降低30% 以上。

生态与落地:打通技术到业务的“最后一公里”

在生态与落地专场,多位嘉宾分享了vLLM-Kunlun 在开源社区和行业场景中的实战经验。

vLLM社区开发者、红帽高级解决方案架构师 Michael Yang 带来了个人开源项目vLLM-Playground的实战演示。该项目旨在降低vLLM 的使用门槛,目前已原生支持昆仑芯,用户可通过 Web UI 一键完成模型配置与推理,让初学者也能轻松上手。

百度智能云高级工程师王浩聚焦大模型推理的冷启动瓶颈。通过自适应权重传输、编译缓存复用、分阶段CUDA Graph捕获等优化手段,将Qwen3-235B-A22B 模型的启动时间从521 秒压缩至4.91 秒(守护实例模式),优化率达99%以上,满足流量潮汐场景下的弹性扩缩容需求。

KnowV/SpaderAI星以舟算力研发负责人赖正一分享了基于昆仑芯P800的智能体平台落地实践。他强调,从“跑通模型”到“跑通业务”还需后训练、知识融合与结构化输出的闭环。经过后训练的Qwen3-8B模型,在昆仑芯上实现了更稳定的指令遵循和JSON输出能力,验证了国产芯片在真实业务场景中的可用性。

本次活动汇聚产学研核心力量,全面展现了国产大模型推理从架构设计、性能优化到生态落地的全链条突破。百度百舸未来将持续深耕国产芯片推理生态,推动国产芯片大模型推理从“可用”走向“好用”,让Token成本持续下降,加速AI普惠化进程。

  免责声明:本网站内容由网友自行在页面发布,上传者应自行负责所上传内容涉及的法律责任,本网站对内容真实性、版权等概不负责,亦不承担任何法律责任。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。

发布者:快科技

相关阅读

微信公众号
意见反馈 科技快报网微信公众号