随着智能手机的普及、网络社交平台的成熟以及短视频服务的兴起,普通用户拍摄、制作及上传分享视频内容的门槛也越来越低。近年来视频数据在因特网 上爆发性的增长并已占据绝大部分流量。传统的以文字为主的搜索引擎也越来越难以对整个因特网进行检索,而开发面向图片、视频的大规模检索系统具有重要的意义。
得益于深度学习技术在近十年的飞速发展,有效的捕捉视频数据的特征,准确描述视频数据已成为可能。但是研发面向十亿级视频数据的检索系统仍然面临极大的挑战。面临的挑战包括:1)生产特征的深度模型计算需求高,难以匹配因特网产生视频数据的速度;2)视频数据规模大,难以快速高效的完成检索请求;3)检索内容多元,系统复杂性高。
本项目旨在设计并实现十亿级别视频检索系统。通过对新增视频分类,减小单一视频特征生产开销。通过设计高扩展性架构,辅以特征量化、近似搜索等技术,缩短检索时间。通过增加音频特征、设计帧图匹配算法,实现通用内容匹配,提高检索精度。
已完成的工作:
正在进行的工作:
(项目负责人:肖梦白)