10月28日,趋境科技与清华KVCache.AI团队共同开源的高性能异构推理框架 KTransformers,正式宣布完成对昇腾NPU的全面适配支持。值得关注的是,本次适配测试全程基于神州鲲泰最新推出的KunTai R624 K2/ KunTai R622 K2大模型训推一体服务器开展——该服务器搭载鲲鹏920新型号CPU与昇腾Atlas 300I A2推理卡,为适配测试提供了稳定、高效的硬件底座。
这一技术突破的达成,核心在于神州鲲泰“鲲鹏 + 昇腾”算力底座与开源生态的深度协同。通过趋境科技对KTransformers的 框架优化与神州鲲泰硬件适配的双向联动,开发者现已能在KunTai R624 K2/KunTai R622 K2服务器的“单卡昇腾NPU+鲲鹏CPU”组合上,轻松实现DeepSeek-R1/V3-671B等千亿级参数大模型的高效运行,打破了“千亿级大模型需多卡集群支撑”的传统认知。
实测数据更直观印证了这一协同优势:在搭载Atlas 300I A2推理卡的KunTai R624 K2/KunTai R622 K2服务器上,运行DeepSeek-R1 671B大模型时,单卡单并发Decode速度达14.9 tokens/s,同时显存占用实现90%以上的大幅降低。亮眼表现背后,是趋境科技KTransformers框架与神州鲲泰算力底座的四重深度优化适配,构建起“硬件性能+软件效率”的双重优势:
鲲鹏-昇腾异构协同:依托KunTai R624 K2/KunTai R622 K2服务器的原生架构设计,KTransformers实现精准负载分配——将混合专家模型中计算强度较低的路由专家层参数,卸载至鲲鹏CPU的大容量内存;同时将计算密集的多层潜在注意力层,保留在昇腾NPU上高效执行,让“CPU 调度+NPU计算”的协同效能充分释放。
NUMA架构专项优化:针对KunTai R624 K2/KunTai R622 K2服务器的多NUMA架构特性,框架定制化优化本地内存分配与线程调度策略,显著降低硬件访问延迟,为国产算力发挥极致性能筑牢技术基础。
鲲鹏数学库(KML)加速加持:通过深度集成鲲鹏数学库,KTransformers对大模型核心的矩阵乘法运算实现专项加速,与KunTai R624 K2/KunTai R622 K2服务器的鲲鹏处理器形成技术共振,进一步提升计算效率。
硬件利用率极致挖掘:结合KunTai R624 K2/KunTai R622 K2服务器的硬件设计特性,采用专家延迟计算技术重叠通信与计算过程,最大化利用硬件资源,为高并发推理场景提供稳定支撑。
神州鲲泰始终以“硬件+模型+生态”三重布局推动AI产业化落地。从KunTai A722推理型AI服务器到KunTai Cube「智汇魔方」解决方案,再到此次表现突出的KunTai R624 K2/KunTai R622 K2大模型训推一体服务器,神州鲲泰已构建起覆盖“训、推、用”全场景的AI算力支撑体系,能为开发者提供低门槛、高性能的异构推理环境。此次KTransformers完成昇腾NPU适配,不仅是开源生态与国产算力的成功融合,更印证了神州鲲泰“鲲鹏+昇腾”架构的兼容性与性能优势。
当前,企业对AI大模型私有化部署的需求呈“井喷”式增长,成本控制与数据安全成为两大核心诉求。神州鲲泰通过与开源生态的深度协作,让“千亿级大模型单卡运行”从技术构想变为现实——这不仅大幅降低企业部署高端AI模型的硬件门槛,更凭借私有化部署能力,为企业数据主权安全提供可靠保障。从教育领域的AI教学辅助、医疗行业的智能诊断支持,到金融场景的风险预测分析,神州鲲泰正以“工科学霸”的技术落地能力,将华为“理科学霸”的底层技术转化为可直接应用的行业解决方案,推动AI像水电一样普惠千行百业。
此次适配升级,亦是神州鲲泰开放生态战略的重要实践成果。依托KunTai OpenLab等生态支撑平台,神州鲲泰正持续联合开发者与合作伙伴,加速开源模型与国产算力硬件的适配优化,为AI产业化从“技术狂热”转向“价值务实”提供关键算力支撑。未来,随着端侧AI、边缘智算等新场景的拓展,神州鲲泰将继续深化软硬件协同创新,让国产算力在更多领域创造实际价值,助力数字经济高质量发展。
部署文档与报告
部署文档:
https://github.com/kvcache-ai/ktransformers/blob/main/doc/zh/DeepseekR1_tutorial_zh_for_Ascend_NPU.md
性能验证报告:
https://github.com/kvcache-ai/ktransformers/pull/1525
关于趋境
趋境科技是大模型推理加速先行者,助力企业低成本落地使用大模型。团队首创“以存换算”和“全系统异构协同推理”技术架构,开创大模型私有化部署新路径,将大模型推理门槛降低10倍,赋能企业低成本创新。基于创新技术架构发布高性价比大模型推理解决方案,实现软硬一体开箱即用,提供工作站、服务器、集群优化等多层级解决方案;搭载便捷大模型运维平台,纳管所有资源、分钟级启动大模型,降低大模型运维管理技术门槛和时间成本。同时已全面适配国产化硬件,提供从硬件-推理引擎-大模型自动化运维平台-应用的全栈式解决方案,当前已在金融、安全、法律等领域落地使用。