江苏省语言计算及应用实验室多项成果入选,持续夯实全链路语音语言核心技术

来源:思必驰 #思必驰# #ICASSP#
2941

近日,国际声学、语音与信号处理会议 ICASSP 2026 公布录用结果。江苏省语言计算及应用实验室多篇论文被会议接收。ICASSP 长期被视为声学、语音与信号处理领域最具国际影响力的学术会议之一,其录用成果集中反映了语音语言技术前沿的发展方向。

江苏省语言计算及应用重点实验室(以下简称“实验室”)由思必驰科技股份有限公司牵头,联合上海交通大学、苏州大学共建,是江苏省在通用人工智能领域布局的重要战略科技力量。实验室以思必驰的产业平台为依托,汇聚上海交大、苏大的顶尖科研资源,形成“产学研用”深度融合的创新共同体,聚焦语言计算核心技术,贯通基础理论、关键算法、产业落地的全链条创新。

实验室本次收录的论文成果聚焦 多语种语音识别、高效自回归语音合成 与 低码率神经语音编解码 等前沿方向,支撑思必驰核心技术能力持续增强:提升了多语种交互一致性、优化了端云协同实时响应、强化了分布式智能体在复杂场景中的感知与执行稳定性;并进一步升级了车载座舱语音助手、会议软硬件产品与智能家居终端的交互体验,同时提升面向海外与多行业客户的标准化交付效率与可扩展能力。下面介绍本次收录的代表性成果:

多语种语音识别

复杂口音与多语种环境下的识别鲁棒性强化,支撑车载座舱中的多音区交互与跨区域语音服务能力。

MOSA: Mixtures of Simple Adapters Outperform Monolithic Approaches in LLM-based Multilingual ASR 面向端到端多语种语音识别中的核心难题。该问题长期受限于两类结构性瓶颈,一是低资源语言数据不足,二是传统单一投影器难以同时兼顾跨语言共享与语言特异建模。

MOSA 采用 简单适配器混合 的结构范式,在统一框架内引入多专家协同机制,使跨语言共享知识与语言专属性特征能够实现有效分工与协同学习。该方法并未依赖更重的单体投影结构,而是通过多个轻量适配器的组合提升表示能力,因此在工程资源受限条件下更具部署价值。

实验结果显示,在训练参数量仅为 Ideal-LLM Base 六成的条件下,平均词错误率仍下降 13.3%。这一结果表明,多专家轻量适配策略不仅提升识别精度,同时在数据不平衡情形下展现出更强稳定性,为多语种识别系统的大规模落地提供了可验证路径。

高效自回归语音合成

提升合成语音的可懂度与响应效率,加强车载播报、办公助手语音反馈与多轮任务执行中的自然表达。

Robust and Efficient Autoregressive Speech Synthesis with Dynamic Chunk-wise Prediction Policy 针对自回归语音合成在长序列建模中的关键矛盾展开研究。传统逐词元预测方案在序列增长后容易出现注意力不稳定,进而引发时延上升与可懂度下降,这也是高质量合成模型进入实时业务的重要障碍。

DCAR 提出 动态分块预测策略。该策略通过多词元预测训练与轻量在轨模块协同,按语音内容动态调整预测跨度,降低模型对长序列逐步递推的依赖,同时保持合成细节质量。其核心价值在于将效率优化与语音质量优化统一到同一生成机制内。

在公开实验中,DCAR 相较传统逐词元预测模型实现可懂度最高 72.27% 的提升,并将推理速度提升至 2.61 倍。该结果显示,动态分块范式能够显著改善实时语音生成能力,为车载播报、会议助手与多轮语音交互中的低时延输出提供技术基础。

低码率神经语音编解码

优化低码率语音传输与端侧资源开销,赋能智能家居与消费终端中的低功耗部署、弱网稳定交互。

Codecslime: Temporal Redundancy Compression of Neural Speech Codec via Dynamic Frame Rate 指向神经语音编解码中的普遍问题。固定帧率机制默认语音时间信息密度均匀,然而真实语音在静音段、长元音段与快速过渡段的有效信息密度差异显著。固定帧率因此会在低信息区产生冗余编码开销。

CodecSlime 引入 动态帧率 机制,以插件化方式嵌入现有神经编解码体系,在不依赖额外监督的条件下压缩时间冗余。方法中的 ScheDFR 与 Melt-and-Cool 分别服务于推理侧与训练侧,使模型能够在不同时间密度区间自适应分配编码资源。

在典型 VQ-GAN 编解码骨干上,当系统运行于约 40Hz 动态帧率并保持约 600bps 量级码率时,CodecSlime 的重建词错误率相较固定帧率基线最多下降 28%。同时,模型在不同帧率设置下持续保持竞争性能,体现了重建质量与传输成本之间更灵活的工程权衡能力。

产品落地:智能车载、智慧办公与智能家居的持续升级

本次收录的研究成果共同推动思必驰全链路对话式人工智能系统在全流程可控、端到端贯通与规模化部署方面持续进阶。对于企业级产品而言,这类基础技术进展不仅提升单点模型指标,更重要的是提升跨模块协同效率与整体用户体验的可感知升级:多语种交互更稳定、语音反馈更自然及时、弱网与低功耗条件下的使用体验更顺畅。依托上述能力,思必驰在多行业项目中的交付效率与场景适配速度持续提升,为客户提供更一致、更可靠的语音交互服务。

责编: 爱集微
来源:思必驰 #思必驰# #ICASSP#
THE END
关闭
加载

PDF 加载中...