智赋万物，继往“铠”来，天数智芯首款通用GPU推理产品惊艳亮相

作者：李沛 2022-12-22

来源：爱集微 #天数智芯# #智铠100# #通用GPU#

2.3w

从Midjourney、Stable Diffusion等AIGC（人工智能生成内容）小工具引爆流行，到对ChatGPT是否已能通过图灵测试的广泛讨论，2022，无疑是人工智能发展史上又一个“大年”。接二连三的“全民级”事件传播，强烈预示着人工智能产业发展的新阶段业已拉开序幕，而广阔的产业前景与动荡的供应环境，也呼唤着本土厂商在通用人工智能（AGI）所依赖的训练推理硬件上大有作为。

12月20日，上海天数智芯半导体有限公司正式发布其通用GPU推理产品-智铠100，继天数智芯2021年发布首代通用GPU云端训练产品天垓100并实现规模应用后，这家中国本土通用GPU产业“先行者”再次用产品惊艳业界。

云边协同正当时

在当天的致辞中，天数智芯总裁盖鲁江表示，智铠100是继天垓100后天数智芯正式向市场推出的第二款产品，标志着天数智芯成为国内唯一拥有云边协同、训推组合的完整通用算力系统全方案提供商。这是天数智芯继往开来、奋勇前进的新起点，也是天数智芯发展中极为关键的一大步，还是天数智芯发展历史上又一座里程碑。

盖鲁江所强调的“云边协同、训推组合”，的确是当前通用GPU发展演进的主旋律。以时下引发全球社交平台“狂热”追捧，惊为天人的ChatGPT为例，就是“云边协同、训推组合”的一个经典案例。

顾名思义，ChatGPT的基础是GPT-3这一超大规模预训练模型，在应用于生成式对话这一场景时，则使用少量人工标准的数据样本进行模型的精调，参数规模下降了一两个数量级，轻量化意味着大幅减少的资源开销，也代表模型迭代效率可以大幅提升。

在ChatGPT等AIGC“杀手应用”的示范效应下，可以想见，人工智能产业在传统基于有监督学习的商业模式之外，无标签大规模预训练模型生成+边侧/端侧小数据模型精调部署的云边协同模式也将蔚然成风。

伴随着产业趋势的深刻变革，通用GPU这一提供基础算力的产品形态必然需要形成云端训练和边/端侧推理的合理搭配，将进一步加速已经明显形成的训练、推理产品技术规格分化，云端训练需要超大算力以承载动辄千亿乃至万亿参数规模的大模型，而边/端侧推理则需要适应功耗、时延在应用现场的严苛约束，帮助预训练大模型“蒸馏”之后的“小模型”实现场景可用与实际部署。

从这一意义上看，高端通用GPU解决方案，必须实现训练、推理产品“两条腿走路”，而智铠100，则标志着天数智芯向前迈出的又一开创性步伐。

根据盖鲁江的介绍，智铠100这款推理产品兼具“应用覆盖广，计算性能高，使用成本低”三大特质，可以广泛应用于金融、医疗、教育、安防、互联网、智能语音、车路协同智能中心等领域。智铠100的上述主打特色及目标应用领域，可谓精准把握到了边侧/端侧人工智能应用的痛点并给出了富有诚意的解决方案，有望继天垓100之后，打造又一个经得起市场检验的“中国芯”标杆产品。

值得一提的是，德高望重的倪光南院士，也专门为智铠100的发布送上祝福，充分肯定了天数智芯成立数年来的不凡成绩，并鼓励团队勇毅前行，为我国通用GPU事业的发展做出更大的贡献。

三大特质显功力

本次产品发布会上，天数智芯产品线总裁邹翾对智铠100的三大特质进行了详细解读。

其一是计算性能高。智铠100芯片支持FP32、FP16、INT8等多精度混合计算，实现了指令集增强、算力密度提升、计算存储再平衡，支持多种视频规格解码。此次发布会推出的智铠100产品卡，可提供最高384TOPS@int8、96TFlops@FP16、24TFlops@FP32的峰值算力，800GB/s的理论峰值带宽以及128路并发的多种视频规格解码能力。相较于市场上现有主流产品，智铠100将提供2-3倍的实际使用性能。

其二是应用覆盖广。基于天数智芯第二代通用GPU架构，智铠100多达800余条通用指令集，支持国内外主流深度学习开发框架，拥有丰富编程接口拓展和高性能函数库，可以灵活支持各种算法模型，便于客户自定义开发。智铠100广泛适用于智慧城市、智慧港口、智慧交通、智能制造、电力、智能语音、医疗、教育、智慧金融等众多场景，为各行业提供坚实算力保障。

其三是使用成本低。延续天垓100开发易迁移的特点，智铠100全面支持推理及训练一体化方案，能够在不额外增加购置成本的情况下完成增量训练工作，有效减少用户的成本支出。延续天垓100的生态兼容策略，智铠100仍提供开箱即用的产品体验，降低用户的开发成本和使用成本。

邹翾谈到，智铠100芯片是天数通用GPU架构的第二代产品，也是天垓100之后的新一代迭代，其产品特质，正是基于天垓100商用过程中来自行业一线的客户需求：“我们的客户期望能够有一款产品针对推理应用进行端到端的进一步性能优化，得到性能提升。并且希望这些产品可以快速地支持最近流行的各种各样的网红应用，包含最近大家熟知的AI绘图以及ChatGPT，同时客户们也希望这样的产品能够针对这些应用提供更好的性价比。”

在邹翾讲解过程中，对客户案例的信手拈来为集微网留下了深刻印象，例如他引用合作伙伴在疾病AI辅助诊断领域的工作，一次完整的下消化道检查涉及病变检测、部位识别以及病变诊断3种业务的并发或顺序重组，需要支持5个以上的模型而且还在变化中。智铠100凭借其强大的算力，可以在只引入1-2ms延迟的情况下完成单卡上多数据流并行分发，满足实时性要求，以支持在线手术，并且有条件对接高达90路摄像头，通过图像批处理完成多台手术的并行工作。

这一案例，也极为清晰地展示了为何时延在边侧/端侧推理应用中如此重要，人命关天的医疗现场，人工智能应用的渗透往往存在“两难”，或是高性能神经网络模型缺少端侧计算、存储资源支撑无法部署，或是依赖于云端模型，存在极高的端到端时延，同样难以实际应用。

对行业、领域案例的熟悉，背后折射的是天数智芯作为一家商业公司的“章法”和“档次”，以客户成功为导向，以用户体验为准绳，使其与不少依然沉迷于标榜参数高低的“做题式”通用GPU玩家形成了巨大差异。

做难事必有所得

对人工智能领域稍有涉猎的观察者都不难了解，英伟达等海外巨头不仅在通用GPU产品上占据优势地位，其在人工智能模型开发框架和软件工具链上的优势甚至更为惊人，以至于英伟达CUDA已成为事实上的行业基准。

也正因为如此，通用GPU等“大芯片”的流片乃至量产，只是实现商业成功的“第一步”，更艰巨的考验，在于开拓和培育用户生态，倪光南院士在致辞中也谈到，“国内通用GPU芯片以及支撑它的通用的并行计算架构，也就是CUDA架构，已经成为一个事实标准。在这个领域的市场上和CUDA兼容就是一种迫切的需求，这对于很多厂商都是一个重大的挑战。”

回顾过往历史，不少高调发布乃至少量流片的本土高端芯片产品，往往在量产良率这一关口前就已悄然止步，遑论后续九十九难的商业化之路，而天数智芯，毫无疑问是在这一领域本土厂商中筚路蓝缕的“拓荒者”和先行者。

天数智芯能够在靠产品力说话的通用GPU市场赢得一席之地，离不开其从基础硬件到客户现场服务、软件工具链配套的全方位交付能力。今年8月，天数智芯还发布国内领先的通用计算及人工智能开源平台DeepSpark，率先向行业开放技术能力。

这样的投入，特别是软件团队搭建和项目管理，往往对芯片企业而言是极大的挑战，天数智芯选择做难而正确的事情，离不开其公司资源围绕“服务客户”的极致聚焦。

邹翾讲解中谈到，“一款好的产品，除了良好的性价比通用性外，客户的使用体验也至关重要。”

智铠100延续天垓100的生态兼容策略，为客户提供开箱即用的产品体验，对客户侧不同职能使用者需求有深刻洞察，竭尽所能降低其迁移底层硬件的“成本”，尽可能维持其原有使用习惯，在这一基础上，再通过产品特性创新，提供“one more thing”式的亮点，如MidJourney等AIGC网红应用已经成为吸取流量的利器，不少互联网客户表达了试图模仿其扩散模型（Diffusion model）实现类似功能的需求，天数智芯团队仅用两周就配合客户完成了Diffusion模型的适配与调优工作，实现了应用的快速上线，充分显示出智铠100支持未知应用快速迭代的能力。

如果说天垓100代表着天数智芯在通用GPU领域从0到1的突破，那么智铠100的发布，则令人欣喜地看到，天数智芯从1到100的发展之路上已经走出了一串清晰而扎实的足迹。

结语

接连不断的网红应用，使今年俨然可以被视为“AIGC元年”乃至“AGI元年”，至少诸多有识之士，已经在非常严肃地思索MidJourney、ChatGPT等AI工具与相关领域专业内容生产者之间如何协作，并预卜未来无法有效与AI写作的创意工作者，将面临被淘汰的切实风险。

这一扑面而来的人工智能产业新浪潮，也将为通用GPU市场带来深刻而巨大的影响，智铠100的发布，标志着来自中国的力量，也不会在这个巨大的机遇窗口缺席。

（校对/萨米）