摘要:
语音交互是人机交互的重要方式,对智能家居和智慧城市的发展至关重要。在这个报告中,我将介绍跨模态语音感知的两方面工作,多模态语音识别和指纹声音身份认证。多模态语音识别是通过毫米波与语音相融合,开发的一种毫米波语音识别系统。该系统融合了两者模态的优势,实现高抗噪,远距离,稳定性高的语音识别系统。我们建立感知喉咙振动的毫米波与语音之间相关性的数学模型,为系统的融合机制提供理论基础。针对语音识别中的两大难题:一是在恶劣条件下检测语音活动,二是在多人场景中锁定用户,我们基于相关性模型设计了语音活动检测模块和用户标定方法来解决以上难题。为了充分利用两者的相关性,我们基于注意力机制设计了融合网络,并提出了重校正模块和投影模块来解决特征提取与融合不充分等问题。指纹声音身份认证利用带有指纹的粗糙指尖摩擦智能设备(如VR头盔,智能手表)表面产生的声波,从中提取反映指纹差异化的特征,构建了层次化指纹音特征提取模型,使“指纹音”系统变成一个新型“指纹扫描仪”,保证了“指纹音”区分用户的准确率。该方法无需传统的高能耗高价格光学或电容指纹传感器,而仅需日常常见的低能耗低成本的麦克风就可以实现指纹身份认证,可以广泛应用于可穿戴设备,智能家居,工业物联网等物联网终端。
个人简介:林峰,浙江大学网络空间安全学院/计算机科学与技术学院“百人计划”研究员。CCF/IEEE高级会员,杭州市特聘专家。本科毕业于浙江大学,在美国田纳西理工大学获博士学位。曾任美国科罗拉多大学丹佛分校助理教授,纽约州立大学布法罗分校研究科学家。主要研究方向为物联网安全,智能与移动传感,无线安全,生物识别身份认证,人工智能等。在国际一流期刊与重要国际会议上发表80余篇高水平论文(CCS, MobiCom,MobiSys, SenSys, NDSS, Infocom, UbiComp, TMC, TIFS, ToN),参与制定行业标准一项。担任IEEE Network等期刊编委和MobiCom, SenSys等会议TPC成员。获2021 ACM SIGSAC China新星奖,MobiSys’20,Globecom’19, BHI’17会议最佳论文奖,HotMobile’18会议最佳演示奖,SenSys’21,Infocom’21会议最佳论文奖提名和IEEE J-BHI期刊封面亮点文章等奖项。带领学生获中国研究生创“芯”大赛全国一等奖,中国高校计算机大赛网络技术挑战赛总决赛一等奖,和优秀指导教师奖。