太初元碁:40+大模型即发即适配,上线即可用,国产算力高效落地

来源:量子位 #太初元碁# #AI芯片# #大模型#
1961

据记者获悉,2月18日,国产AI芯片企业太初(无锡)电子科技有限公司(又称“太初元碁”)完成智谱GLM-5.0、阿里千问Qwen3.5-397B-A17B等大模型的深度适配,截至目前,其已完成包括DeepSeek、Qwen、GLM、Intern-S1、文心等在内的40+AI大模型的即发即适配,上线即可用,涵盖了DeepSeek、Qwen 、GLM、Seed-OSS、文心一言系列大语言模型、BAAI Embedding / Reranker系列向量模型、Qwen-VL、LLaVA系列多模态理解模型;Stable-Diffusion、FLUX、Wan系列等多模态生成类模型;MinerU、DeepSeek-OCR、Paddle-OCR等主流OCR模型;以及Intern-S1科学多模态大模型。

自2026年元旦以来,多家知名企业纷纷宣布更新国产大模型,大模型进入“周更”时代,而算力底座的响应速度也决定了生态话语权。换言之,留给国产AI芯片的时间并不多了。一位业内人士表示,软件定义硬件的趋势日益明显。“过去我们习惯的芯片设计流程是先集中全力把硬件设计出来,然后软件团队投入大量人力去建设和完善各种软件栈将硬件性能发挥出来,实现软硬件协同。但以DeepSeek、智谱、千问等大模型大规模成功应用,让我们看到了变化。”

以太初元碁为例,除了在极短时间完成各大模型的快速适配之余,其也就软硬件协同问题在持续发力。据介绍,在主流大模型适配过程中,太初元碁针对不同开发者的技术能力差异,在SDAA软件栈中推出了阶梯式开发工具链,全面覆盖从入门到高阶的多元化开发需求。该工具链能够帮助开发者快速构建高性能算子,实现与主流AI生态的无缝兼容,显著降低CUDA生态迁移的技术门槛与成本。

“一方面,面向不同开发者我们提供了多种开发高性能算子工具,比如SDAA Copilot、Teco-Triton、SDAA C以及PCX虚拟指令集等;另一方面,我们通过Teco-vLLM高度适配自研AI加速卡从而实现零成本兼容AI主流任务。”太初元碁相关负责人介绍道。据悉,SDAA Copilot专注于加速卡算子智能生成的AI编程大模型,小时级别生成3000个SDAA算子代码生成并通过单测;开发者使用熟悉的Triton的Python抽象语法树快速、灵活的编写高性能算子,Teco-Triton后端无缝运行在太初元碁加速卡;SDAA编程模型支持C/C++标准语法,让开发者可以直接使用进行内核开发;PCX虚拟指令集深度匹配太初元碁的硬件特性,支持用户在SDAA C程序中嵌入PCX指令,实现对关键计算路径的精细优化。同时,Teco-vLLM通过插件机制,将太初AI加速卡接入vLLM框架,实现与原生vLLM完全一致的推理接口和方法,基于GPU开发的vLLM原生应用无需修改模型代码和启动方式,即可无缝迁移至太初元碁硬件运行,降低生态切换成本。

太初元碁首席产品官洪源在接受记者采访时表示,突破集群性能、追求极致推理性价比、加速生态和软件工具建设将成为国产AI芯片企业的三大主攻方向。“大模型训练本质上是大数据量的‘分布式并行计算’,互联能力就是分布式计算的数据传输‘高速公路’。前沿大模型的训练已经要求数万张算力卡的互联并行工作,国产AI芯片厂商不能只关注单卡性能,需要充分考虑如何构建产品真正的集群性能,”洪源说道,“现阶段对于大模型厂商和云服务厂商而言,每Token对应的成本将有可能决定产品的‘生死’,所以性价比将成为推理任务的极致追求。最后是生态的挑战,让我们国产AI芯片在最终客户侧落地时,必须回答并彻底解决一个实际问题,如何帮助用户甚至让用户无感的从CUDA生态迁移过来。”

在大模型没有进入“周更”时代前,或许国产AI芯片企业还能放慢脚步,慢慢观察再决定接下来要怎么走。然而,现在已然没有太多的时间,国产算力企业真正的大考来临,谁能真正拓展生态,让产品在具体场景下落地,才能在未来继续“活”下来。

责编: 集小微
来源:量子位 #太初元碁# #AI芯片# #大模型#
THE END
关闭
加载

PDF 加载中...