学术报告:跨模态语音感知——识别与认证
语音交互是人机交互的重要方式,对智能家居和智慧城市的发展至关重要。在这个报告中,我将介绍跨模态语音感知的两方面工作,多模态语音识别和指纹声音身份认证。多模态语音识别是通过毫米波与语音相融合,开发的一种毫米波语音识别系统。该系统融合了两者模态的优势,实现高抗噪,远距离,稳定性高的语音识别系统。我们建立感知喉咙振动的毫米波与语音之间相关性的数学模型,为系统的融合机制提供理论基础。针对语音识别中的两大难题:一是在恶劣条件下检测语音活动,二是在多人场景中锁定用户,我们基于相关性模型设计了语音活动检测模块和用户标定方法来解决以上难题。为了充分利用两者的相关性,我们基于注意力机制设计了融合网络,并提出了重校正模块和投影模块来解决特征提取与融合不充分等问题。指纹声音身份认证利用带有指纹的粗糙指尖摩擦智能设备(如VR头盔,智能手表)表面产生的声波,从中提取反映指纹差异化的特征,构建了层次化指纹音特征提取模型,使“指纹音”系统变成一个新型“指纹扫描仪”,保证了“指纹音”区分用户的准确率。该方法无需传统的高能耗高价格光学或电容指纹传感器,而仅需日常常见的低能耗低成本的麦克风就可以实现指纹身份认证,可以广泛应用于可穿戴设备,智能家居,工业物联网等物联网终端。