突破语音技术难题 网易云商论文入选国际语音会议ASRU作为人工智能技术中的一个重要分支,语音技术让计算机能够理解和生类的语音,实现与人类自然、流畅、高效的交互,旗下有语音识别(ASR)、语义理解(NLP)、语音合成(TTS)等多个子类别,在智能客服、智能教育、智能家居、车联网等多个场景中展现出巨大的价值和潜力。
近期,专注于探讨语音技术热点难点问题的国际语音会议 ASRU2023 公布论文入选结果,网易云商关于“加速CTC语音识别模型推理”的论文被大会录用,展现了网易云商难题的决心和实力。
据悉,ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的专家和研究人员,共同探讨广泛的语音识别与理解问题,是语音与语言处理学术圈的顶会。
在这样一个极具影响力的技术顶会中脱颖而出,网易云商的这篇论文有何独特之处?解决了什么关键问题?让我们来一探究竟。
“目前主流的 ASR 模型都需要很大的 Encoder(编码器)来对语音序列信号进行建模,这在提升识别准确率的同时,也带来了极大的计算量。我们在论文中提出了一种新的语音识别模型推理方案,把 CTC(Connectionist Temporal Classification,一种序列建模算法,用于在语音识别,手写识别和其他序列问题中训练深度神经网络的算法) 引入到编码模块,根据 CTC 的输出概率动态调整编码过程”,论文作者侯同学介绍了论文的研究背景和方向。
语音识别的整个过程,简单粗暴可以分为四步:语音输入编码解码输出。拿我们熟悉的微信语音转文字场景为例,输入一段语音,先要经过编码(将原始语音信号转换为数字表示,以便计算机可以对其进行处理和分析),然后进行解码(将数字表示的语音信号转换为模拟语音信号),最后输出文字结果。
在编码环节,为了将原始的语音信号转换为代码,需要借助 Encoder 进行建模和识别。以一句“你好”为例,短短的两个汉字,对应的序列长度就有近200帧(语音中一帧一般为20-50毫秒),这个过程带来了庞大的计算量和部署成本。
针对困扰行业的此问题,网易云商AI技术组开展深入研究半岛官网入口网页版。先通过使用 CTC 来标识每一帧是否是空白帧,随后,逐帧动态决定 Encoder 的层数,对于空白帧仅使用 Encoder 的一部分层建模,其他关键帧则使用整个 Encoder 建模。
用一种更灵活的方式,更简化的模型,加速了模型推理速度,降低了计算量和部署成本。实验结果表明,网易云商提出的这种方式,可以在保证识别效果基本不变的情况下,将模型的推理速度提升29%。这大大提升了 ASR 服务的性价比。
多年来,网易云商一直在AI语音技术领域不断探索,深入研究,并应用在网易云商旗下智能外呼、智能质检、呼叫中心、呼入机器人、坐席辅助等产品中,为企业用户带去高性价比、高效率、有温度的智能语音解决方案,在服务和营销场景大放异彩。
某主打国战玩法的魔幻题材MMORPG手游,公测至今已经 5 年,游戏运营团队主要采用常规的短信方式进行流失召回,单用户平均回流成本通常在11-13 元左右。现在,他们希望找到成本更低、效率更高的方式。
运营团队选取了流失 4 年内的付费用户,以新服回归活动(送代币、坐骑、时装、抽取法宝)为利益点,采用网易云商提供的智能外呼方案进行大批量的召回,最终回流率达到7.8%,单用户平均回流成本仅2.8 元,流召活动整体 ROI 达到15 倍。
语音技术在日常生活和生产应用中扮演着越来越重要的角色,网易云商将持续探索,攻坚克难,加速AI创新。