李稀敏博士专访｜一文看懂时下最火的声纹识别技术

人的声音各有不同，我们用耳朵就能分辨出周围人声音的不同，但这样的“不同”该如何呈现出来呢？第二次世界大战后期，贝尔实验室研究和发明了“音响光谱图像显示器”，把声波用光谱图像加以显示，这样的图像称为语谱图，后来又命名为声纹。

通过可见的语谱图，贝尔实验室实现了人工说话人识别。上世纪60年代，贝尔实验室又提出了基于模式匹配和概率统计方差分析的说话人识别方法，此后声纹识别技术得到快速发展，从单模板模型发展到多模板模型，从模板模型发展到矢量量化模型、高斯混合模型、隐马尔可夫模型，再到人工神经网络……

21世纪以来，“声纹识别技术主要有3次突破。”李稀敏说。李稀敏是清华大学在职博士，人机对话与声纹识别领域资深专家，同时他也是厦门快商通科技股份有限公司的AI研发中心总监、快商通声纹研发团队的核心成员。

声纹识别技术的三个分水岭

除了上述的身份外，李稀敏还是一名知乎“楼主”，他开通的 “声纹识别的应用实践”专栏，详细介绍了声纹识别的技术、资源、应用等，目前还在不断更新中。在接受亿欧采访时，为了便于理解，李稀敏将近年来声纹识别技术的发展总结为3个分水岭。

（近年声纹识别技术发展的3个分水岭）
第一个分水岭是2000年。在2000年以前，进行声纹识别验证，主要是基于模板匹配，这种算法基于信号比对，通常要求比对双方的内容相同，比如要验证说“床前明月光”的人是谁，那验证人也必须要说“床前明月光”才能验证，如果他说“疑似地上霜”的话，验证就不能完成。2000年以后，开始出现基于高斯混合模型的声纹识别算法，高斯混合模型是典型基于统计学习理论的方法，该算法采用大量数据为每个说话人训练模型，使用高斯混合模型验证已经与文本无关了，即要验证“床前明月光”的说话人时，说“疑似地上霜”也能够验证成功。之后产生的许多主流研究方法都是在高斯混合模型的基础上改进的，但高斯混合模型注册语音的时间过长，无法满足实际应用场景的需求，因此需要新的技术来突破限制。

第二个分水岭是2010年左右，这时候出现了iVector/PLDA算法。iVector最大的亮点在于，把语音映射到了一个固定的且低维的向量上，这意味这所有机器学习的算法都可以用来解决声纹识别的问题了，因此这是一个巨大的进步。PLDA是一种信道补偿算法，因为在iVector中，既包含说话人的信息，也包含信道信息，而我们只关心说话人的信息，所以才做信道补偿，目前PLDA是最好的信道补偿算法，但噪声对结果依然有很大的影响。

第三分水岭是在2011年，在第十一届全国人机语音通讯学术会议上，邓力分享了他在微软DNN-based speech recognition的研究结果，将识别率提升了30%，这将声纹识别的准确率一下子提升了一个层次。DNN能从大量样本中学习到高度抽象的说话人特征，并对噪声有很强的免疫力，至此深度学习被引入业界，国内对声纹识别技术的关注点也放到了深度学习上。

声纹识别在公共安全领域大有用途

将深度学习引入声纹识别领域后，经过了几年的发展，目前声纹识别技术已经相对完善，那么声纹究竟可以怎么用呢？相对于其他身份认证方式，声纹识别具有易采集、非接触、高可靠等特点，操作简单，且验证内容可变化，因此在公共安全领域大有用途。

“最重要的一个应用场景是电信反欺诈。”李稀敏说，电信诈骗是通过电话、网络或短信的方式编造虚假信息，设置骗局，是一种非接触性的诈骗。根据相关统计，超过50%的电信诈骗是通过打电话进行的，“所以电话是重灾区，”李稀敏说：“而声纹识别也是一种非接触式的方法，可以直接在电话里就识别出说话人的身份，有效减少电信诈骗的发生。”目前快商通声纹已经与公安局、电信公司展开合作，建立了动态声纹数据库，支持十亿级声纹库实时检索，能够快速进行1：N大规模检索。“十亿差不多就是中国网民的数量，目前能支持这个级别的声纹实时检索的，我们是业内首家。”李稀敏告诉亿欧。

在公共安全领域，除了电信反欺诈外，司法社区矫正也是声纹识别的一个典型应用场景。社区矫正是指针对判处管制、宣告缓刑、裁定假释、暂予监外执行这四类犯罪行为较轻的对象所实施的非监禁性矫正处罚。尽管我国从2009年开始在社区矫正中启用信息化管理手段，但实际操作中仍存在脱管、漏管现象，“采用声纹对矫正人员身份进行验证，可以有效解决‘人机分离’的问题。”李稀敏说，而且只需通过电话即可完成验证，这极大地降低了司法所的工作强度，对矫正对象而言，这样的方式也更能体现出对人格的尊重，有助于其顺利回归社会。

解决借贷黑中介的良方

除了公共安全领域外，金融领域也对声纹识别有着强烈的需求，“特别是在金融借贷方面。”李稀敏介绍道，在消费金融行业，大部分坏账来源于黑中介主导的产业链式诈骗，黑中介利用社交媒体、路边小广告等骗取借款人信任，以协助办理贷款为名，提供全套虚假贷款资质证明材料。因此如何在审查环节及时鉴别出黑中介，成为降低消费金融公司坏账率的关键因素，“声纹识别就是一种很好的办法。”

日前快商通声纹与国内某民营金融集团上线了声纹信贷反欺诈系统，目的就在于用声纹识别出黑中介，降低金融公司损失，目前快商通已取得声纹反欺诈在金融领域应用的专利证书。

李稀敏介绍道，当贷款订单进入电核环节，系统会自动提取声纹并与系统黑名单做对比，同时与最近的或同区域订单的声纹做交叉对比，如果命中黑名单，或发现重复的联系人信息，系统则会提示该人有重大欺诈嫌疑。

（快商通声纹信贷反欺诈系统架构）
“当时在打造这个系统的时候，如何在误报和漏报之间找到平衡点，是一个难题。”李稀敏说，误报和漏报就像是一个跷跷板的两端，如果漏报率高了，误报率就会降低，反之亦然。“问题就在于，如果漏报率太高了，抓不住黑中介，那么这个系统就失去意义了；但如果误报率太高，那么这个系统的报警系统会响个不停，这也是不现实的。”最终，快商通声纹团队根据实际应用需要，将该系统的误报率降到万分之五以下，漏报率控制在20%左右。

快商通声纹业务将迎来井喷式增长

虽然目前声纹识别已经能在多个领域落地应用，但声纹识别技术仍面临着许多挑战。其中一个比较常见挑战是跨信道的识别，李稀敏说，不同的设备、传输通道会造成信道的不同，不同的信道有不同的噪音，编码方式也存在差异，因此给声纹识别的算法加大了难度。除此之外，还有语音合成、口音变化等问题也会给声纹识别带来挑战。

（快商通声纹识别结构图）
“所以我们也一直在想办法提升自己的技术水平。”而要想有技术的成果，人才是关键。李稀敏告诉亿欧，最近一位全球语音领域的权威专家加入了快商通声纹团队，担任公司首席科学家，负责人才培养及公司战略布局指导等工作，这位专家曾担任过全球自然语言处理和计算机语言学领域的国际顶级学术会议ACL和语音通信领域的国际顶级学术会议InterSpeech的大会主席。

快商通声纹研发团队核心成员100%具有国内外名校博士学位，目前通过快商通声纹引擎建立的声纹模型数已超过五千万，在稳定性、识别率和处理速度上处于业界领先位置。

“今年是投资声纹识别的元年。”李稀敏认为，国内的声纹识别还处于起步阶段，随着技术的成熟，未来声纹识别将在越来越多的领域得到应用，“我预计今年快商通声纹的业务会有井喷式增长。”李稀敏透露，今年快商通声纹将继续深耕公共安全和金融安全两大重点领域，进一步推进声纹在这些领域的应用。

“当然，我们AI研发中心也不是只做声纹。”李稀敏告诉亿欧，快商通正在筹备一个开放平台。“现在用户更希望企业能提供一篮子的解决方案，不想把服务器放在自己那里，而是在需要的时候，调用云上的接口。”李稀敏告诉亿欧，目前该平台只是各个研发组算法的集成，尚未完全开放，但未来快商通会看准需求爆发的时机，真正开放这个平台。而未来依托这个大的开放平台，快商通的声纹业务也许会有更大的发展空间。

（内容来源：亿欧，唐钰婷）