瞄准AI推理 CPU潜力无限

来源:爱集微 #CPU# #第五代至强# #英特尔#
6085

集微网报道 生成式AI技术的快速崛起,正在重塑千行百业。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰指出,众多调研结果显示,有58%的企业都将在未来一两年导入生成式AI以提高企业生产力,预计到2026年有超过3000亿美元将投入到生成式AI当中,包括硬件、软件、解决方案等,其中有50%以上的边缘计算也将采用AI芯片。

这些数字背后蕴含的是AI推理需求的快速上涨,而CPU也将发挥关键作用。庄秉翰表示,英特尔在去年年底发布了第五代至强可扩展处理器,不仅在硬件层面实现了全新的升级,在软件生态也进行了极大投入,可运行高达200亿参数的模型推理,且延迟低于100毫秒,在AI推理领域的价值潜力正在释放。

软硬件全面升级

作为第五代至强处理器,在硬件和生态层面均实现了多重进化。

英特尔资深技术专家介绍,通过制程技术、芯片架构和布局、性能指标、三级缓存(LLC)容量、I/O速度的改进和提升,在性能和能效层面实现了新的进阶,更从容应对AI负载。

据介绍,第五代至强核心数量增加到64个,单核性能更高,每个内核都具备AI加速功能;采用更高速的I/O接口,UPI速度提升。此外,其内置的英特尔AVX-512及英特尔AMX(高级矩阵扩展)加速器迭代升级,AMX支持新的FP16指令,同时混合AI工作负载性能提高2~3倍。

CPU要加速大模型推理,内存带宽至关重要。第五代至强的内存带宽从4800 MT/s提高至5600 MT/s,三级缓存容量提升至近3倍之多,同时插槽可扩展性,支持从一个插槽扩展至八个插槽,为第五代至强支持大模型提供了坚实的后盾。

尽管处理器核数和性能提升,但第五代至强通过单相全集成供电模块模式和增强主动空闲模式,进一步降低了待机功耗,可提高数据中心的供电有效性,帮助客户真正达到节电的目标。从数据上来看,与上一代产品相比,第五代至强相同热设计功耗下平均性能提升21%。

通过多重“进化”,相较于前一代产品,第五代至强不仅迭代了性能,还带来了42%的AI推理性能提升。特别是相较于第三代产品,第五代至强在AI推理上最高提升了14倍,高性能计算应用提高了3倍,数据分析则达到3.7倍。

基于软件生态在AI应用中的重要性,英特尔也在全面发力软件堆栈。一方面,为开发者提供统一性和易用性的OpenVINO,实现“一次编写,随处部署”。另一方面,加大了对主流大模型框架Pytorch、TensorFlow和ONNX Runtime等支持,开发者可无缝迁移至第五代至强获得AI加速优化。英特尔还上传了300个以上的深度学习模型到社区,支持50个以上的基于机器学习、且基于第五代至强优化过的模型,供开发者调用。

值得一提的是,OpenVINO 2023.1版本正在加速英特尔追求的“任何硬件、任何模型、任何地方”的目标实现,即逐步扩展OpenVINO成为跨客户端与边缘端的、针对推理与部署运行AI模型的完整软件环境。

除了上层的框架之外,英特尔还开发了很多高性能库,如oneDNN、OneCCL等。英特尔资深技术专家指出,借助OneDNN可提升单机性能,OneCCL则可进行集群式运算,有了oneDNN和oneCCL的加持,使得CPU支持20B参数以上的模型推理。同时,英特尔还对底层包括虚拟化层、云原生层和OS Kernel层持续投入,让最新的技术能适配最新的软件栈。

高性价比满足推理需求

考验大模型的推理能力,一个硬性指标在于:Second token在100毫秒内生成。

而第五代至强的战斗力“拉满”:第五代至强可以在20几毫秒,或者是60~70毫秒完成。这也表明CPU在模型调优、推理应用的高能。

庄秉翰认为,大模型是对业务的辅助,比如聊天机器人、内容生成、提纲分析等,这些只是帮助企业提高生产力。尤其是在私有云上,企业没有必要再重新部署新的GPU平台。因为一个新的平台意味着需要考虑开发、运维等因素,成本有可能增加,而这对于企业来说也可能会成为负担,使用CPU完全能满足这一类生成式AI模型的工作负载需求。

而第五代至强已在一些实际场景中已得到了“通关”验证,如阿里、百度、京东等均已论证了基于第五代至强能够运行Llama2 70B参数的推理,通过一个四节点的服务器,可以达到87.5毫秒的推理结果。在京东Llama2 13B的模型应用中,实现了50%的性能提升。

而在满足AI推理的同时,还要考虑性价比。专家提到,性价比的一个评估方法是看能够同时支持多少客户的访问。第五代至强基于BF16或int8,分别在1-8个用户时均可满足100ms的硬需求。基于四节点的第五代至强服务器,在int8的精度下甚至可满足同时有8个用户访问的需求。

整体而言,在全盘考虑部署和运维成本等因素后,一般的企业导入基于至强的生成式AI服务,如聊天机器人、知识库问答等基础大模型应用时,比基于传统云服务的初期导入成本低一半左右。

值得一提的是,在oneCCL加持下的分布式推理,可支持更大的模型至70B参数,而且延迟达到100ms以内。

新的计算范式支持新需求

为持续应对AI时代推理需求,将底层硬件的能力充分发挥出来,真正将硬件能力转化为用户价值,英特尔也在着力通过新的计算范式支持新的数字化需求。

英特尔资深技术专家介绍,进入到AI时代,虚拟化的内容较少,转为大规模的物理机,算力、数据和工程化能力成三大考验。英特尔将着力构建一个完整生态,通过软硬件结合提供端到端方案,提供从云使能到AI使能、专为AI业务负载设计的全面可扩展方案,助力生态合作伙伴们充分挖掘和利用底层CPU的能力,

从进阶来看,英特尔在云计算时代在虚拟化技术上投入了“重兵,提升了虚拟化效率同时,也减少了对底层硬件的损耗。到了AI时代,英特尔通过制程、架构优化等多重革新,提升了42%的AI推理能力。同时,英特尔还致力在框架层、函数库层面挖掘硬件能力,通过API接口调用挖掘底层硬件能力。此外,在系统层面上,着力将CPU、内存以及网络整合成统一的有机整体,提升效能。延伸至语言层、模型层和垂直行业的应用方面,英特尔亦大规模投入。

在不可或缺的数据安全和模型安全层面,其中数据安全还涉及到数据传输安全、存储安全、交换安全等,英特尔也在着力端到端的解决方案。

对于CPU的下一步发展,技术专家分析:“未来,谁的能源利用率高、转化率高,谁就更有竞争力。对于CPU来说一定要拼功耗,这需要全方位发力。”

专家进一步表示,首先是工艺,随着工艺逐渐提升到Intel 3、Intel 20A、Intel 18A,功耗会越来越低,每一代都会有两位数的功耗降低。其次是封装,使用先进的封装技术可将不同制程的芯片通过Chiplet架构集成进行灵活运算,降低功耗。最后,可针对不同的工作负载优化。

庄秉翰最后透露,2024年英特尔将继续发布新一代至强可扩展处理器,集合P-core(性能核)和E-core(能效核)处理器,其中P-core看重整体性能的提升,而E-core则看重每瓦带来的性能提升,并提供丰富的产品组合,全面满足生成式AI时代大模型推理的需求。

责编: 陈兴华
来源:爱集微 #CPU# #第五代至强# #英特尔#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...