先进的三维扫描技术的进步,使得创建三维点云对象的高精度表示成为可能。三维点云是一种简单的数据结构,定义为三维空间中的一组无组织点,这种结构使用各种数学模型来描述几何和属性(颜色、材料和照明行为等)的对象,用于表示静态和动态三维对象。然而,高保真内容的点云视频的创建、存储、传输、处理和可视化需要大量计算资源和带宽。因此,开发能够考虑各种应用约束的高效点云视频压缩方法已成为一项关键挑战。
鉴于二维卷积和相关的非线性激活可以很好地利用二维图像中的冗余进行二维图像和视频的压缩,三维点云也可以使用三维卷积在三维空间中有效地利用体素相关性,使用适当的三维卷积来紧凑地表示三维点云,来提取点云相关特征进行高效的数据编码和解码。
本项目首先对点云视频进行分块,并对每一块单独采用自编码器进行编码以及解码,自编码器通过无监督学习,应用神经网络学到输入数据的高效表示,而输入数据的这一高效表示称为编码,其维度一般远小于输入数据,这使得自编码器可用于降维,之后,自编码器作为强大的特征检测器,应用于深度神经网络的预训练。此外,自编码器会随机生成与训练数据类似的数据,这被称作生成模型,通过不断比较原始数据和生成模型,实现压缩效率的提高并生成高质量模型。
(项目负责人:肖梦白)