打造低韬高词元循环！迈特芯亮相集微大会端侧AI峰会，公布LPU技术路线图

作者：爱集微 1小时前

来源：爱集微 #迈特芯# #集微大会#

2036

5月27日至29日，2026第十届集微大会在上海张江科学会堂隆重举行。其中端侧AI峰会于5月28日举办，深圳市迈特芯科技有限公司创始人、南科大教授余浩出席活动并带来《面向词元循环经济的LPU芯片技术：3D分布式TPU》主题分享： MetaChip 3DIC 芯片、MetaClaw AIOS。

当前AI推理需求正在迎来爆发式增长，预计未来推理需求将是今天的10,000倍。在此背景下，整个行业正经历支持词元循环（词元生成及词元消费）的范式转移。受限于云端的延迟问题（高韬、低词元效率），支持智能体的本地终端（低韬、高词元效率）成为新的增长点。围绕多层级词元生态，迈特芯提出云、边、端协同布局实现词元循环：云端OPC级“词元推理机”支持700B模型，边侧企业级“词元推理卡”面向70B模型，端侧家庭级“词元推理芯”则针对7B模型，分别满足不同场景下的推理需求。

针对端侧大模型芯片（LPU）现状，余浩教授分析认为，移动端设备受限于严格的芯片面积、制造良率及散热能力，难以直接照搬云端的大算力方案。迈特芯采用基于3D-DRAM的3D-PIM（近存LPU）小算力端侧芯片，在极小面积和更低功耗下实现600GBps带宽。对比数据显示，相比2D LPDDR5X方案，3D-PIM的能效比从7.0-9.5 pJ/bit提升至0.8-1.5 pJ/bit，总功耗从33.6-45.6W降至3.8-7.2W，互连延迟从20-40ns缩短至5ns以内，实现支持低韬、高词元效率的词元循环。

在核心技术方面，迈特芯的3D分布式直连架构通过3D IO垂直直通处理单元，配合“立方脉动计算”，使数据在时钟周期内于3D网格中持续流动，实现持续80%的极高带宽利用率，相较传统2D NoC架构的10-50%利用率有显著提升。

技术路线上，迈特芯已取得多项进展：

· 2023年完成TPU IP验证，其Cubic Systolic（张量脉动）相比Google Atomic Systolic（标量脉动）能效提升1.24倍，面积减少20%，动态功耗降低42%；

· 2024年完成分布式LLM-TPU FPGA验证，在FPGA VCU128上实现LLM端到端部署，实测带宽利用率高达75%，性能达75 tokens/s，能效达1.47 tokens/J，优于A100 GPU及FlightLLM等方案；

· 2025年推进3D分布式LLM-TPU流片:MetaChip（全国产供应链）；

· 2026年推出LPU终端AIOS: MetaClaw。

近期规划方面，迈特芯推出多款LPU终端推理卡：35B-MOE推理卡模型容量22GB（MOE 1.5GB），功耗约40W，算力约40 TOPS，性能80 tokens/s；120B-MOE推理卡模型容量70GB（MOE 5GB），功耗约80W，算力约80TOPS，性能40 tokens/s。产业落地方面，迈特芯LPU终端整体方案已布局移动终端市场（龙虾盒子、龙虾平板），目标涵盖AI-NAS盒子、AI办公本、AI学习本、AI医疗本等；同时布局具身终端市场（龙虾臂、龙虾狗），目标涵盖AI机器狗、AI机械臂、AI送餐机器人等，均搭载端侧多模态大模型。