打造低韬高词元循环!迈特芯亮相集微大会端侧AI峰会,公布LPU技术路线图

来源:爱集微 #迈特芯# #集微大会#
2036

5月27日至29日,2026第十届集微大会在上海张江科学会堂隆重举行。其中端侧AI峰会于5月28日举办,深圳市迈特芯科技有限公司创始人、南科大教授余浩出席活动并带来《面向词元循环经济的LPU芯片技术:3D分布式TPU》主题分享: MetaChip 3DIC 芯片、MetaClaw AIOS。

当前AI推理需求正在迎来爆发式增长,预计未来推理需求将是今天的10,000倍。在此背景下,整个行业正经历支持词元循环(词元生成及词元消费)的范式转移。受限于云端的延迟问题(高韬、低词元效率),支持智能体的本地终端(低韬、高词元效率)成为新的增长点。围绕多层级词元生态,迈特芯提出云、边、端协同布局实现词元循环:云端OPC级“词元推理机”支持700B模型,边侧企业级“词元推理卡”面向70B模型,端侧家庭级“词元推理芯”则针对7B模型,分别满足不同场景下的推理需求。

针对端侧大模型芯片(LPU)现状,余浩教授分析认为,移动端设备受限于严格的芯片面积、制造良率及散热能力,难以直接照搬云端的大算力方案。迈特芯采用基于3D-DRAM的3D-PIM(近存LPU)小算力端侧芯片,在极小面积和更低功耗下实现600GBps带宽。对比数据显示,相比2D LPDDR5X方案,3D-PIM的能效比从7.0-9.5 pJ/bit提升至0.8-1.5 pJ/bit,总功耗从33.6-45.6W降至3.8-7.2W,互连延迟从20-40ns缩短至5ns以内,实现支持低韬、高词元效率的词元循环。

在核心技术方面,迈特芯的3D分布式直连架构通过3D IO垂直直通处理单元,配合“立方脉动计算”,使数据在时钟周期内于3D网格中持续流动,实现持续80%的极高带宽利用率,相较传统2D NoC架构的10-50%利用率有显著提升。

技术路线上,迈特芯已取得多项进展:

· 2023年完成TPU IP验证,其Cubic Systolic(张量脉动)相比Google Atomic Systolic(标量脉动)能效提升1.24倍,面积减少20%,动态功耗降低42%;

· 2024年完成分布式LLM-TPU FPGA验证,在FPGA VCU128上实现LLM端到端部署,实测带宽利用率高达75%,性能达75 tokens/s,能效达1.47 tokens/J,优于A100 GPU及FlightLLM等方案;

· 2025年推进3D分布式LLM-TPU流片:MetaChip(全国产供应链);

· 2026年推出LPU终端AIOS: MetaClaw。

近期规划方面,迈特芯推出多款LPU终端推理卡:35B-MOE推理卡模型容量22GB(MOE 1.5GB),功耗约40W,算力约40 TOPS,性能80 tokens/s;120B-MOE推理卡模型容量70GB(MOE 5GB),功耗约80W,算力约80TOPS,性能40 tokens/s。产业落地方面,迈特芯LPU终端整体方案已布局移动终端市场(龙虾盒子、龙虾平板),目标涵盖AI-NAS盒子、AI办公本、AI学习本、AI医疗本等;同时布局具身终端市场(龙虾臂、龙虾狗),目标涵盖AI机器狗、AI机械臂、AI送餐机器人等,均搭载端侧多模态大模型。


责编: 爱集微
来源:爱集微 #迈特芯# #集微大会#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...