leyu·乐鱼(中国)体育官方网站录音降噪哪家强？搜狗西工大联合团队DNS挑战赛

新闻资讯

发布日期：2024-04-06 来源: 网络阅读量（）

　　公布了“深度降噪挑战赛”（Deep Noise Suppression Challenge）的比赛成绩，搜狗联合西北工业大学音频语音与语言处理研究组（以下称搜狗-西工大联合团队）击败了亚马逊、微软、Facebook、中科院声学所、CMU等国内外顶尖高校和机构摘得桂冠。

　　在这场面向语音增强任务的竞赛中，搜狗-西工大联合团队提出的新的复数增强网络结构DCCRN(Deep Complex Convolution Recurrent Network)在实时降噪赛道以显著优势击败多路强手最终脱颖而出。

　　对于一帧长度为T毫秒的语音来说，在2.4Ghz的Core i5 四核CPU上处理时长不能超过T/2毫秒。使用的未来帧信息不超过40毫秒。

　　而搜狗工程师表示，他们和西工大联合开发的模型可以将延时控制在60毫秒以内。如果视频聊天里用上这项技术，那么用户基本不会感受到音画不同步。

　　为了防止作弊，微软的DNS挑战赛对参赛者还有一项要求，那就是不能用盲测数据集继续训练调试模型，而且必须使用被Interspeech 2020收录的论文里的技术。

　　但是在频域处理信号会面临一个问题：时域信号经过短时傅立叶变换到时频域后成为复数，这个复数包含了信号的幅度和相位。

　　过去虽然也有人使用复数频谱作为训练目标，但却是在实值网络中进行训练，将实部和虚部视为两个输入通道leyu乐鱼，用一个共享权值卷积核分别对实部虚部进行处理。

　　为了解决这个问题，搜狗-西工大联合团队设计了一种用于复数运算的新网络结构，称为深度复数卷积循环网络（DCCRN），其中CNN和RNN结构都可以处理复数值运算。

　　CRN集成了卷积编码器-（CED）结构和长短期记忆（LSTM），而且还用复数LSTM代替了传统的LSTM。

　　简而言之，DCCRN由一个卷积核处理实部leyu·乐鱼(中国)体育官方网站录音降噪哪家强？搜狗西工大联合团队DNS挑战赛夺冠、一个卷积核处理虚部，再使用复数乘法规则将其相连。复数模块通过复数乘法建立幅度和相位之间的相关性，从而有效地提升了实部和虚部估计精确度。

　　仅凭借370万个参数，搜狗-西工大联合团队最终提交模型的MOS初赛得分与亚马逊并列第一，复赛时还高出亚马逊0.03分（overall）。

　　有亚马逊、Facebook等科技巨头参与，搜狗为什么能够击败众多强大对手，获得语音降噪技术的第一？

　　比如去年搜狗被ICASSP收录的论文《基于模态注意力的端到端音视觉语音识别》，就是搜狗多模态思路在降噪技术上的一种应用。

　　这项技术利用语音+唇语的方式，将信噪比为0dB（语音信号与噪声大小相当）时的识别将准确率提高了30%。

　　搜狗的语音输入法，搜索、翻译等业务，都在越来越广泛地使用语音识别。搜狗近年来大力投入的硬件业务，也在AI底层技术的加持下收获了不错的口碑。

　　在这次比赛前，其自研另一个PureVoicePureVoice深度降噪算法已经应用到自家产品，比如AI录音笔中。

　　前不久，罗永浩在第一次直播中，与搜狗CEO王小川联合推荐的搜狗高端AI录音笔S1，向观众展示了搜狗强大的降噪能力。即使现场有吹风机这样的强噪声，搜狗录音笔S1也能清晰还原人声。

　　虽然其售价2000多，高于市场上大多数竞品，但因为有AI降噪技术加持，这款旗舰产品很快一售而空，获得了用户认可，也证明了AI技术才是录音笔的核心竞争力。

　　去年，搜狗向索尼、爱国者、纽曼等录音笔品牌开放了“搜狗听写”服务，作为基础AI服务占领录音笔市场。

　　作为一家技术驱动的公司，搜狗将不断让新技术注入到产品里，大赛中夺冠的DCCRN技术已经“在路上”，未来也会尝试将其部署在录音笔中leyu乐鱼。

　　今年在疫情驱使下，在线办公软件成为大公司“必争之地”。国外微软谷歌、国内BAT今年都在快速迭代升级在线会议功能。

　　而复杂的家庭办公环境给在线会议带来很大挑战。如何用AI技术消除背景噪音，是各大科技公司在努力解决的问题。

　　最近，英伟达发布了视频会议的降噪工具，可以去除像敲击键盘、喝水这样的噪声，提高视频会议质量。但是这项技术需要用到英伟达的RTX中高端显卡，大大限制它的使用人群。

　　如果能在算力更低、价格更便宜的设备上实现降噪，无疑会让更多用户受益。这也是搜狗技术团队努力的方向。

　　搜狗工程师表示，DCCRN降噪技术能适配不同规格的硬件leyu乐鱼，上到手机电脑，下到小小的录音笔芯片，有着更广阔的应用空间。

　　搜狗语音技术频繁刷榜背后，应该是搜狗对于AI降噪在语音行业的“基石”地位的思考。至于今后搜狗会在产业里扮演怎样的角色，让我们拭目以待。返回搜狐，查看更多