8月12日下午,华为发布了一款名为UCM(推理记忆数据管理器)的AI“黑科技”,旨在提升AI推理效率和用户体验。AI产业正从追求模型能力极限转向优化推理体验,而推理体验直接关系到用户满意度和商业可行性。华为计划9月在魔擎社区开源UCM,并逐步贡献给主流推理引擎社区及存储厂商。
UCM以KV Cache为中心,融合多种缓存加速算法工具,通过分级管理推理过程中的KV Cache数据,扩大推理上下文窗口,从而实现高吞吐、低时延的推理体验,降低每个Token的推理成本。随着AI产业进入代理式人工智能时代,模型规模扩张和长序列需求增加,导致KV Cache容量超出显存承载能力。国外领先芯片厂商通过硬件迭代、软件优化和生态绑定构建了难以替代的“铁三角”。相比之下,中国企业在单点硬件技术上有所突破,但在软件及生态适配方面仍有差距。
为加速国产化改造,各行业开始重视构建国产推理生态。UCM的核心价值在于提供更快的响应速度和更长的推理序列。例如,通过动态KV逐层卸载和位置编码扩展等技术,UCM能将超长序列的Cache分层卸载至外置专业存储,实现10倍级推理上下文窗口扩展。此外,UCM还能根据记忆热度在不同存储介质中流动,结合稀疏注意力算法,使长序列场景下的TPS提升2至22倍,进一步降低每个Token的推理成本。
华为与中国银联合作,在智慧金融领域试点应用UCM,涵盖客户之声、营销策划和办公助手三大业务场景。以办公助手为例,使用华为AI推理加速方案后,可支持超过17万Tokens的超长序列推理,有效解决超长序列模型推不动的问题。