单卡驱动千亿大模型！神州鲲泰算力底座与KTransformers深度协同，加速AI私有化落地 - 资讯与活动

10月28日，趋境科技与清华KVCache.AI团队共同开源的高性能异构推理框架 KTransformers，正式宣布完成对昇腾NPU的全面适配支持。值得关注的是，本次适配测试全程基于神州鲲泰最新推出的KunTai R624 K2/ KunTai R622 K2大模型训推一体服务器开展——该服务器搭载鲲鹏920新型号CPU与昇腾Atlas 300I A2推理卡，为适配测试提供了稳定、高效的硬件底座。

这一技术突破的达成，核心在于神州鲲泰“鲲鹏 + 昇腾”算力底座与开源生态的深度协同。通过趋境科技对KTransformers的框架优化与神州鲲泰硬件适配的双向联动，开发者现已能在KunTai R624 K2/KunTai R622 K2服务器的“单卡昇腾NPU+鲲鹏CPU”组合上，轻松实现DeepSeek-R1/V3-671B等千亿级参数大模型的高效运行，打破了“千亿级大模型需多卡集群支撑”的传统认知。

实测数据更直观印证了这一协同优势：在搭载Atlas 300I A2推理卡的KunTai R624 K2/KunTai R622 K2服务器上，运行DeepSeek-R1 671B大模型时，单卡单并发Decode速度达14.9 tokens/s，同时显存占用实现90%以上的大幅降低。亮眼表现背后，是趋境科技KTransformers框架与神州鲲泰算力底座的四重深度优化适配，构建起“硬件性能+软件效率”的双重优势：

鲲鹏-昇腾异构协同：依托KunTai R624 K2/KunTai R622 K2服务器的原生架构设计，KTransformers实现精准负载分配——将混合专家模型中计算强度较低的路由专家层参数，卸载至鲲鹏CPU的大容量内存；同时将计算密集的多层潜在注意力层，保留在昇腾NPU上高效执行，让“CPU 调度+NPU计算”的协同效能充分释放。

NUMA架构专项优化：针对KunTai R624 K2/KunTai R622 K2服务器的多NUMA架构特性，框架定制化优化本地内存分配与线程调度策略，显著降低硬件访问延迟，为国产算力发挥极致性能筑牢技术基础。

鲲鹏数学库（KML）加速加持：通过深度集成鲲鹏数学库，KTransformers对大模型核心的矩阵乘法运算实现专项加速，与KunTai R624 K2/KunTai R622 K2服务器的鲲鹏处理器形成技术共振，进一步提升计算效率。

硬件利用率极致挖掘：结合KunTai R624 K2/KunTai R622 K2服务器的硬件设计特性，采用专家延迟计算技术重叠通信与计算过程，最大化利用硬件资源，为高并发推理场景提供稳定支撑。

神州鲲泰始终以“硬件+模型+生态”三重布局推动AI产业化落地。从KunTai A722推理型AI服务器到KunTai Cube「智汇魔方」解决方案，再到此次表现突出的KunTai R624 K2/KunTai R622 K2大模型训推一体服务器，神州鲲泰已构建起覆盖“训、推、用”全场景的AI算力支撑体系，能为开发者提供低门槛、高性能的异构推理环境。此次KTransformers完成昇腾NPU适配，不仅是开源生态与国产算力的成功融合，更印证了神州鲲泰“鲲鹏+昇腾”架构的兼容性与性能优势。

当前，企业对AI大模型私有化部署的需求呈“井喷”式增长，成本控制与数据安全成为两大核心诉求。神州鲲泰通过与开源生态的深度协作，让“千亿级大模型单卡运行”从技术构想变为现实——这不仅大幅降低企业部署高端AI模型的硬件门槛，更凭借私有化部署能力，为企业数据主权安全提供可靠保障。从教育领域的AI教学辅助、医疗行业的智能诊断支持，到金融场景的风险预测分析，神州鲲泰正以“工科学霸”的技术落地能力，将华为“理科学霸”的底层技术转化为可直接应用的行业解决方案，推动AI像水电一样普惠千行百业。

此次适配升级，亦是神州鲲泰开放生态战略的重要实践成果。依托KunTai OpenLab等生态支撑平台，神州鲲泰正持续联合开发者与合作伙伴，加速开源模型与国产算力硬件的适配优化，为AI产业化从“技术狂热”转向“价值务实”提供关键算力支撑。未来，随着端侧AI、边缘智算等新场景的拓展，神州鲲泰将继续深化软硬件协同创新，让国产算力在更多领域创造实际价值，助力数字经济高质量发展。

部署文档与报告

部署文档：

https://github.com/kvcache-ai/ktransformers/blob/main/doc/zh/DeepseekR1_tutorial_zh_for_Ascend_NPU.md

性能验证报告：

https://github.com/kvcache-ai/ktransformers/pull/1525

关于趋境

趋境科技是大模型推理加速先行者，助力企业低成本落地使用大模型。团队首创“以存换算”和“全系统异构协同推理”技术架构，开创大模型私有化部署新路径，将大模型推理门槛降低10倍，赋能企业低成本创新。基于创新技术架构发布高性价比大模型推理解决方案，实现软硬一体开箱即用，提供工作站、服务器、集群优化等多层级解决方案；搭载便捷大模型运维平台，纳管所有资源、分钟级启动大模型，降低大模型运维管理技术门槛和时间成本。同时已全面适配国产化硬件，提供从硬件-推理引擎-大模型自动化运维平台-应用的全栈式解决方案，当前已在金融、安全、法律等领域落地使用。