本文共 1345 字,大约阅读时间需要 4 分钟。
FuseSeg: Semantic Segmentation of Urban Scenes Based on RGB and Thermal Data Fusion
IEEE Transactions on Automation Science and Engineering
Background
Model
Experiments
Experiment 1
Experiment 2
Experiment 3
Idea: 2021-4-15 10:13:01
对3D Lidar数据的不同方式的表示有必要阅读。
当前目标检测只能在良好的天气条件下产生良好的结果,但在恶劣的天气条件下,如雪、雨、雾甚至在耀眼的阳光下,性能会大大降低。因此,当前目标检测利用几种不同类型的传感器来客服单个传感器的天气敏感性。
在Lidar失效的情况下,当前技术水平和这篇论文所提出的目标检测之间的差异可以在下图看到。
为了通过神经网络融合RGB和Lidar数据,必须将传感器数据转换成合适的格式,以便将数据馈送到神经网络中。
Lidar Image仅由Lidar的信息组成,其高度对应于Lidar扫描通道C的数量,其宽度对应于Lidar扫描旋转的点数。
每个像素被赋予相应的深度值d=√(x²+y²)。Lidar数据为包含N个点的点云P,每个点用p_i表示。
Lidar Image的缺点是RGB和Lidar Image具有不同的尺寸。因此,不可能像Early Fusion方法那样,将RGB和Lidar数据合并到共同的4D输入张量。
Lidar数据的合适的2D表示是Sparse Depth Image,其具有与相机图像相同的大小,使得RGB和Lidar数据可以组合成共同的4D张量。
将3D激光雷达点转换到图像平面生成Sparse Depth Image,其中大多数像素不包含任何深度信息。这可能是一个问题,尤其是对于较小的网络架构,融合方法的性能可能会变得更差。
假设sparse projected lidar points之间的深度值不会偏离太多,可以在没有任何信息损失的情况下生成密集的深度图,并且通过插值来填充没有深度信息的像素。
模型没啥好说的,直接看图就OK了。
当前技术水平和这篇论文所提出的目标检测之间的差异可以在下图看到。
为了通过神经网络融合RGB和Lidar数据,必须将传感器数据转换成合适的格式,以便将数据馈送到神经网络中。
通过将3D点转换成2D特征图,使得能够通过神经网络进行快速和良好的处理。第一种方法是将3D激光雷达点转换成2D距离扫描图像,在下文中表示为Lidar Image。
转载地址:http://xtbzz.baihongyu.com/