瞄准AI推理 CPU潜力无限

作者：李映 03-22 21:21

来源：爱集微 #CPU# #第五代至强# #英特尔#

6085

集微网报道生成式AI技术的快速崛起，正在重塑千行百业。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰指出，众多调研结果显示，有58%的企业都将在未来一两年导入生成式AI以提高企业生产力，预计到2026年有超过3000亿美元将投入到生成式AI当中，包括硬件、软件、解决方案等，其中有50%以上的边缘计算也将采用AI芯片。

这些数字背后蕴含的是AI推理需求的快速上涨，而CPU也将发挥关键作用。庄秉翰表示，英特尔在去年年底发布了第五代至强可扩展处理器，不仅在硬件层面实现了全新的升级，在软件生态也进行了极大投入，可运行高达200亿参数的模型推理，且延迟低于100毫秒，在AI推理领域的价值潜力正在释放。

软硬件全面升级

作为第五代至强处理器，在硬件和生态层面均实现了多重进化。

英特尔资深技术专家介绍，通过制程技术、芯片架构和布局、性能指标、三级缓存（LLC）容量、I/O速度的改进和提升，在性能和能效层面实现了新的进阶，更从容应对AI负载。

据介绍，第五代至强核心数量增加到64个，单核性能更高，每个内核都具备AI加速功能；采用更高速的I/O接口，UPI速度提升。此外，其内置的英特尔AVX-512及英特尔AMX（高级矩阵扩展）加速器迭代升级，AMX支持新的FP16指令，同时混合AI工作负载性能提高2～3倍。

CPU要加速大模型推理，内存带宽至关重要。第五代至强的内存带宽从4800 MT/s提高至5600 MT/s，三级缓存容量提升至近3倍之多，同时插槽可扩展性，支持从一个插槽扩展至八个插槽，为第五代至强支持大模型提供了坚实的后盾。

尽管处理器核数和性能提升，但第五代至强通过单相全集成供电模块模式和增强主动空闲模式，进一步降低了待机功耗，可提高数据中心的供电有效性，帮助客户真正达到节电的目标。从数据上来看，与上一代产品相比，第五代至强相同热设计功耗下平均性能提升21%。

通过多重“进化”，相较于前一代产品，第五代至强不仅迭代了性能，还带来了42%的AI推理性能提升。特别是相较于第三代产品，第五代至强在AI推理上最高提升了14倍，高性能计算应用提高了3倍，数据分析则达到3.7倍。

基于软件生态在AI应用中的重要性，英特尔也在全面发力软件堆栈。一方面，为开发者提供统一性和易用性的OpenVINO，实现“一次编写，随处部署”。另一方面，加大了对主流大模型框架Pytorch、TensorFlow和ONNX Runtime等支持，开发者可无缝迁移至第五代至强获得AI加速优化。英特尔还上传了300个以上的深度学习模型到社区，支持50个以上的基于机器学习、且基于第五代至强优化过的模型，供开发者调用。

值得一提的是，OpenVINO 2023.1版本正在加速英特尔追求的“任何硬件、任何模型、任何地方”的目标实现，即逐步扩展OpenVINO成为跨客户端与边缘端的、针对推理与部署运行AI模型的完整软件环境。

除了上层的框架之外，英特尔还开发了很多高性能库，如oneDNN、OneCCL等。英特尔资深技术专家指出，借助OneDNN可提升单机性能，OneCCL则可进行集群式运算，有了oneDNN和oneCCL的加持，使得CPU支持20B参数以上的模型推理。同时，英特尔还对底层包括虚拟化层、云原生层和OS Kernel层持续投入，让最新的技术能适配最新的软件栈。

高性价比满足推理需求

考验大模型的推理能力，一个硬性指标在于：Second token在100毫秒内生成。

而第五代至强的战斗力“拉满”：第五代至强可以在20几毫秒，或者是60～70毫秒完成。这也表明CPU在模型调优、推理应用的高能。

庄秉翰认为，大模型是对业务的辅助，比如聊天机器人、内容生成、提纲分析等，这些只是帮助企业提高生产力。尤其是在私有云上，企业没有必要再重新部署新的GPU平台。因为一个新的平台意味着需要考虑开发、运维等因素，成本有可能增加，而这对于企业来说也可能会成为负担，使用CPU完全能满足这一类生成式AI模型的工作负载需求。

而第五代至强已在一些实际场景中已得到了“通关”验证，如阿里、百度、京东等均已论证了基于第五代至强能够运行Llama2 70B参数的推理，通过一个四节点的服务器，可以达到87.5毫秒的推理结果。在京东Llama2 13B的模型应用中，实现了50%的性能提升。

而在满足AI推理的同时，还要考虑性价比。专家提到，性价比的一个评估方法是看能够同时支持多少客户的访问。第五代至强基于BF16或int8，分别在1-8个用户时均可满足100ms的硬需求。基于四节点的第五代至强服务器，在int8的精度下甚至可满足同时有8个用户访问的需求。

整体而言，在全盘考虑部署和运维成本等因素后，一般的企业导入基于至强的生成式AI服务，如聊天机器人、知识库问答等基础大模型应用时，比基于传统云服务的初期导入成本低一半左右。

值得一提的是，在oneCCL加持下的分布式推理，可支持更大的模型至70B参数，而且延迟达到100ms以内。

以新的计算范式支持新需求

为持续应对AI时代推理需求，将底层硬件的能力充分发挥出来，真正将硬件能力转化为用户价值，英特尔也在着力通过新的计算范式支持新的数字化需求。

英特尔资深技术专家介绍，进入到AI时代，虚拟化的内容较少，转为大规模的物理机，算力、数据和工程化能力成三大考验。英特尔将着力构建一个完整生态，通过软硬件结合提供端到端方案，提供从云使能到AI使能、专为AI业务负载设计的全面可扩展方案，助力生态合作伙伴们充分挖掘和利用底层CPU的能力，

从进阶来看，英特尔在云计算时代在虚拟化技术上投入了“重兵，提升了虚拟化效率同时，也减少了对底层硬件的损耗。到了AI时代，英特尔通过制程、架构优化等多重革新，提升了42%的AI推理能力。同时，英特尔还致力在框架层、函数库层面挖掘硬件能力，通过API接口调用挖掘底层硬件能力。此外，在系统层面上，着力将CPU、内存以及网络整合成统一的有机整体，提升效能。延伸至语言层、模型层和垂直行业的应用方面，英特尔亦大规模投入。

在不可或缺的数据安全和模型安全层面，其中数据安全还涉及到数据传输安全、存储安全、交换安全等，英特尔也在着力端到端的解决方案。

对于CPU的下一步发展，技术专家分析：“未来，谁的能源利用率高、转化率高，谁就更有竞争力。对于CPU来说一定要拼功耗，这需要全方位发力。”

专家进一步表示，首先是工艺，随着工艺逐渐提升到Intel 3、Intel 20A、Intel 18A，功耗会越来越低，每一代都会有两位数的功耗降低。其次是封装，使用先进的封装技术可将不同制程的芯片通过Chiplet架构集成进行灵活运算，降低功耗。最后，可针对不同的工作负载优化。

庄秉翰最后透露，2024年英特尔将继续发布新一代至强可扩展处理器，集合P-core（性能核）和E-core（能效核）处理器，其中P-core看重整体性能的提升，而E-core则看重每瓦带来的性能提升，并提供丰富的产品组合，全面满足生成式AI时代大模型推理的需求。