激光与光电子学进展, 2019, 56 (4): 040002, 网络出版: 2019-07-31   

三维点云场景数据获取及其场景理解关键技术综述 下载: 2397次

3D Point Cloud Scene Data Acquisition and Its Key Technologies for Scene Understanding
作者单位
1 东北大学信息科学与工程学院, 辽宁 沈阳 110819
2 河北交通职业技术学院电气与信息工程系, 河北 石家庄 050091
3 北京师范大学遥感科学国家重点实验室, 北京 100875
摘要
场景理解是信息科学里的重要研究内容,而三维(3D)数据相比于二维(2D)数据有着众多优势。目前点云的获取有多种方式,且不同获取方式的点云具有不同的特点,此外,基于点云的3D场景理解中的关键技术研究还没有完整、系统的综述。为此,总结了不同方式的点云获取方法,并对不同的点云数据及相关数据库进行对比分析。基于目前3D场景理解的研究进展,针对3D场景理解中的点云滤波、特征提取与点云分割和点云语义分割等技术进行了对比分析与总结。通过对近些年国内外文献的结论进行梳理,凝练出3D场景理解关键技术中存在的问题,并对3D场景理解问题的发展趋势做了展望。基于点云的3D场景理解因其数据的丰富性而被广泛应用在众多领域中,但是目前基于3D点云的场景理解效果,尤其是针对具有颜色信息的激光点云的场景理解,还有众多内容有待深入研究。
Abstract
Scene understanding is an important research content in information science. Compared with the two-dimensional (2D) data, the three-dimensional (3D) data has many advantages. At present, there are many ways to acquire the point clouds, and meanwhile the point clouds with different acquisition methods have different characteristics. In addition, there lacks a complete and systematic research review on the key techniques for 3D scenes understanding. Thus, the different methods for point cloud acquisition are summarized, and the different point cloud data and related databases are compared and analyzed as well. Based on the current research progress of 3D scene understanding, the techniques for point cloud filtering, feature extraction, point cloud segmentation, and point cloud semantic segmentation in 3D scene understanding are compared and summarized. By the summary of the domestic and foreign literatures published in recent years, the problems occurred in the key technologies for 3D scene understanding are condensed, and the development trend of the 3D scene understanding problems is prospected. The 3D scene understanding based on point clouds is widely used in many fields due to its richness of data. However, as for the scene understanding effect of 3D point clouds, especially the scene understanding of laser point clouds with color information, there are still many contents needed to be investigated in depth.

1 引言

场景理解是在空间感知的基础上,对场景进行认知和推断的过程。然而,目前场景理解还没有严格统一的定义。根据目前国内外相关的研究,场景理解主要包含目标检测与识别、物体间的关系以及语义分割等科学内容[1-3]。场景理解是人工智能的前沿研究方向之一,在机器人、虚拟现实、自动驾驶和激光遥感测量等领域具有广泛的应用[4-7],例如,美国国家高速路安全管理局(NHSTA)定义的L5级自动驾驶、百度和高德等的三维(3D)语义地图以及现代战场环境下的单兵作战机器人等都需要高精度、高性能的环境感知和场景理解能力。

基于二维(2D)图像数据(如RGB图像、遥感图像)的场景理解已得到广泛的研究与应用。2D图像提供了物体的颜色、纹理及光谱等关键特征。然而,2D图像所复现的场景可能会存在光照不均匀、目标遮挡等现象,并且在生成过程中易受周围环境的影响。同时,2D图像不包含深度信息。因此,基于2D图像数据的场景理解稳健性差,且难以精确地提取目标轮廓、空间位置等关键信息。

基于3D建模数据(如点云、CAD模型等)的场景理解能够感知场景的3D空间信息。近年来,传感器的快速发展,使得3D数据的获取越来越容易。此外,随着计算机视觉、人工智能技术以及机器人技术的发展,关于各种空间物体的识别和理解的研究已经引起了越来越多的关注。目前,越来越多的学者针对3D场景理解的关键技术展开了大量研究[5,8-11]。近五年来,针对室内与室外环境的点云进行场景理解的方法逐年递增,为了对现有方法进行系统的研究与阐述,检索了近年来关于场景理解的相关文献,通过整理、阅读和研究发现,目前关于场景理解的综述文章都集中于2D图像的场景理解,还没有关于3D场景理解的相对完整、系统的综述,也缺乏图像和3D数据的对比研究。因此,本文主要针对3D场景理解的关键技术,采用图像和3D数据对比的方式,对3D场景数据的获取、现有3D场景理解数据集以及现有场景理解的方法展开论述,最后,对3D场景理解需解决的关键问题进行了展望。

2 点云场景数据获取

2.1 3D重建数据获取的传感器

常用于获取3D重建数据的传感器有普通摄像头、全景摄像机系统、深度相机和激光雷达等。相比较于摄像头获取的2D图像,3D点云可以提供更多的几何结构等空间信息,同时,3D点云获取设备(如Kinect、TOF、激光雷达)的快速发展,使得相关领域的研究人员能够更容易以越来越低的成本获得精度越来越高的3D点云数据。特别是利用激光扫描技术可以快速、高精度、简便地获取到空间信息数据。在复杂的现场环境及空间中,利用激光扫描技术可以直接得到各种大型、复杂、不规则、标准或非标准的实体或实景的3D数字几何信息。

2.2 3D数据重建方法

目前,常用的3D数据获取方法主要分为基于立体视觉、激光和视觉与激光联合重建的方法。基于立体视觉的3D重建方法进行3D重建本质上均是模仿人眼的“视差原理”,这种使用视觉方法进行3D重建的稳健性很差。虽然在比较理想的情况下,目前好的多目视觉方案精度可以达到厘米级别,但是当外界光线由强变弱时,或者物体表面纹理信息缺乏时,容易产生误匹配,精度会大打折扣。因此,基于立体视觉进行3D重建,其精度会随着周围环境的变化而受到影响,不但不具有良好的实时性反而具有相当大的局限性,限制了此方法在3D重建领域的广泛应用。而基于Kinect和TOF(Time of Flight)的3D重建,由于摄像头拍摄视野范围比较小,只能探测几米的范围,所以一般只能应用于室内场景。对于激光3D重建方法,虽然激光的探测距离相对较远,但是得到的只有场景的几何结构信息,缺乏场景的彩色信息,因此不利于后期基于场景的语义分割、场景理解等上层研究。

此外,基于合成孔径雷达(SAR)成像和高清影像可以生成地面场景的彩色点云数据,例如Seasat SAR、Almaz SAR、JERS-1 SAR等。这类数据虽然具有颜色信息且为大尺度场景,但是地面底部信息精度不高,会有一定的遮挡和信息缺失。然而,利用相机和激光点云的联合3D重建不但可以得到大尺度场景的几何结构信息和场景的彩色信息,而且能够适应地面上更多的环境场景,从而可以获得精度较高、信息丰富、场景多元化的3D重建效果。现有的联合重建方法中3D点云数据获取通常是如图1(a)所示的基于车载的移动测绘系统,如基于激光扫描与全景影像的车载测量集成系统[12],它采用了高精度全球定位技术、激光扫描直接测量技术和实景全景图像测量技术相结合的综合性技术。但现阶段移动测量系统均需要全球导航卫星系统(GNSS)和惯导,只能用于室外环境,由于室内没有GNSS信号,现有的移动测量系统无法正常工作。虽然如图1(b)所示的固定式激光扫描可以用于室内室外的环境,但是作业方式效率低下,复杂场景需要大量换站再进行点云拼接。即时定位与地图构建(SLAM)的方法在移动的3D重建问题上具有较好的应用,如基于SLAM技术的推车[13]使用了2D的SLAM 技术,但该方法只能在水平面上使用,如图1(c)给出了3种手推车式采集系统。相比于上述采集系统,背负式激光雷达可移动性强,受空间限制最小,获取的点云数据更为完整。如图1(d)所示的背负式采集系统,不仅可以用于室内场景,也适用于非水平面采集场景,采集的数据可以满足测量等精细作业方面的要求。基于背负式全景影像和激光点云的数据采集系统针对场景通过性好,实现了场景的点云和全景影像全覆盖,是新一代的数据采集平台。

图 1. 3D数据采集系统。(a)车载系统;(b)固定式扫描仪;(c)手推车式采集系统;(d)背负式采集系统

Fig. 1. Three-dimensional data acquisition systems. (a) Vehicle system; (b) fixed scanner; (c) trolley type acquisition system; (d) backpack type acquisition system

下载图片 查看所有图片

图 2. 场景理解示例。(a)图像语义分割;(b)点云目标检测;(c)点云语义分割

Fig. 2. Examples of scene understanding. (a) Semantic segmentation of image; (b) target detection of point cloud; (c) semantic segmentation of point cloud

下载图片 查看所有图片

3 3D场景数据类型对比及数据库

3.1 场景理解不同数据的对比

不同的数据类型进行场景理解时具有不同的效果。图2(a)为基于2D道路RGB图像的场景语义分割示例。通过对图2(a)中道路图像进行语义分割,实现对场景中植物、道路、标识线、车辆以及建筑等物体的感知。但当场景内目标被遮挡或受光照影响时,如图3所示,基于2D图像数据的场景语义理解不能精准地感知目标的轮廓信息。而对于3D点云数据,如图2(b)基于激光点云的目标检测所示,首先通过激光点云复现真实场景中的空间结构、物体形状等信息,进而实现对场景中汽车、行人等目标的精确检测。与图1(b)相比,图1(c)中3D场景模型具有颜色信息,更有利于场景的细节理解。

为了更加明显地对比各种场景理解的数据,对现有的数据进行分类比较,表1所示为面向场景理解的不同数据类型,通过对常见的2D图像数据与3D建模数据的对比可知:RGB图像具有丰富的场景信息,在细节理解上优势明显;Kinect探测距离较近,适用于室内场景的3D建模;基于激光雷达的点云数据具有高精度的3D空间信息和激光强度信息,此外,激光雷达获取空间信息数据具有速度快、探测距离远以及精度高等优点,可以深入到复杂的室外环境或空间进行3D建模。然而,基于激光雷达的点云数据缺乏颜色信息,这给场景的精细理解增加了困难。因此,具有颜色信息的激光点云对场景理解具有明显优势。

图 3. 2D图像受环境因素影响示例。(a)目标严重遮挡;(b) a图语义分割结果;(c)目标受光照影响;(d) c图语义分割结果

Fig. 3. Examples of 2D images affected by environmental factors. (a) Severe occlusion of target; (b) semantic segmentation of (a); (c) target affected by light; (d) semantic segmentation of (c)

下载图片 查看所有图片

表 1. 场景理解不同数据的优缺点对比

Table 1. Comparison of advantages and disadvantages of different data in scenario

NameInstanceAdvantage characteristicDisadvantage
2D RGB image2D information,color textures, etc.Image is susceptible toillumination, lacks depthinformation, cannot directlyacquire geometric information.
Point cloud databased on image3D reconstruction3D scenes, color textures andother sparse point clouds,with depth information, distance.Point cloud is susceptible tolight and environment, andreconstruction information is lost.
Kinect-basedRGB-D pointcloud data3D indoor small scene, densepoint cloud, only for closerange, with depth.Point cloud is susceptible tolight, only for indoor scenes,small field of view.
Point cloud databased onvehicle lidarHigh-precision, dense point clouds,and three-dimensional spatialinformation and intensity information.Less affected by environmental factors.Limited by platform, only point cloudscenes with linear road trajectoriescan be generated. Unable to extractscene color. information
Point cloud databased onstatic lidar3D outdoor scene, high-precision,dense point cloud, 3D spatialinformation and intensity.Collection device cannot bemoved, and point cloudscene is incomplete.
Point cloud databased onaerial lidar3D outdoor scene, high-precisioninformation, sparse point cloud,suitable for large-scalerough modeling.Unable to reproduce ground details,laser radar cannot extractscene color information.
Collision-basedpanoramic imageand laser pointcloud fusion data3D outdoor scenes, high-precisioninformation, dense point clouds,mobile modeling, full-frame3D space, color and intensity.Scene color informationcannot be extracted by thelaser point cloud alone.

查看所有表

定义具有颜色信息的激光点云为彩色激光点云,该数据通过RGB图像和激光点云联合3D建模生成,不仅拥有RGB图像中的颜色信息,而且具备激光点云的空间结构特征,有利于目标物体多样、纹理复杂以及噪点多的室内外环境场景理解。图4为基于图3(b)的数据采集系统获取的Semantic3D[8]彩色点云室外场景,该场景是静态扫描仪获取的围绕一个中心点扫描,丢失后部信息,不够完整的场景。Landrieu等[9]通过语义分割能够准确提取出道路、草丛以及硬体等几何特征存在相似的目标物体。

图 4. 3D彩色点云室外场景语义分割

Fig. 4. Semantic segmentation of semantic 3D color point cloud of outdoor scene

下载图片 查看所有图片

此外,相比于车载激光雷达、静态激光雷达以及航拍激光雷达,背负式激光雷达在复杂环境下的数据采集具有更多的优势。图5图6所示为基于背负式全景影像和激光点云数据采集系统所采集的室外场景点云数据。该系统实现了全景影像和激光点云的高精度配准,彩色激光点云数据具有空间信息(x, y, z)、颜色信息(R, G, B)以及强度信息(I)。并且,针对复杂的场景通过性好,不受铺装道路的行走限制,获取的点云数据更为完整,可以复现出场景中丰富的几何信息,更适合室外环境的场景理解,如图6所示。

图 5. 小区彩色点云图像

Fig. 5. Color point cloud image of community

下载图片 查看所有图片

图 6. 背负式全景影像移动轨迹(黄色线条)

Fig. 6. Trajectory (yellow lines) of collision-based panorama image

下载图片 查看所有图片

3.2 3D场景数据库

目前,3D点云公共数据库主要包含基于Kinect采集的数据库和基于激光点云的数据库。

基于Kinect采集的数据库,如NYUv2 dataset[10]和SUN RGB-D dataset[11]等。此类数据库面向室内场景居多,且数据精度及点云模型的完整性并不高。

基于激光点云的数据库,如Laser Registration Datasets[14];基于单站式的静态激光扫描的公共数据集Semantic 3D[8],航拍影像与激光扫描结合的点云数据库,如Aerial Inspection Datasets[7];其他车载激光点云数据,如德国Toposcan公司通过Lynx平台获取的Enschede数据、芬兰赫尔辛基大学通过ROAMER平台获取的Espoonlahti数据、Sydney Urban Object[15], ModelNet[16]等。此类数据库多数缺乏颜色信息或数据库表征场景单一或精度较低、场景完整度较差,在场景理解应用中效果较差。

内容丰富的彩色激光点云数据库,尤其是彩色激光点云数据库,能够准确复现3D场景的丰富信息,场景理解算法需要通过完整、有效的数据集进行验证,如图7中所示的场景示例。由图7可见,针对室外场景理解的不同研究内容,高效、准确地标记数据库样本以及构建高精度、多场景的彩色点云数据库,是场景理解未来发展趋势中的重要基础工作。

图 7. 室外场景的完整彩色点云

Fig. 7. Complete colorful point cloud of outdoor scene

下载图片 查看所有图片

4 场景理解关键技术

3D场景理解是在空间认知的基础上,利用视觉分析、测绘测量等技术,挖掘场景数据中的特征与模式,形成对场景中物体的分割和识别,并对整个场景进行描述等的过程。基于3D点云的场景理解关键技术主要包括:点云的滤波、点云的特征提取、点云的分割、点云的分类、场景的语义分割与理解等内容。

4.1 点云的滤波

点云数据较复杂,目前的点云数据会存在数据缺失的现象,如扫描的模型被遮挡,造成部分点云数据的缺失;点云中通常含有噪声点及冗余信息;点云中存在旋转问题,如同一个物体,会存在不同的点云表达形式。

在点云的场景理解中,地面区域会对场景的分割等造成干扰,需要滤除地面区域,以便对地面以上感兴趣的信息进行有效的理解。点云滤波是点云处理的基本步骤,主要分为对点云中的噪声点进行滤波和对地面点进行滤波。对噪声点的滤波主要有直通滤波、半径滤波和统计滤波。如表2所示,给出了常用的几类滤波方法的比较。

表 2. 噪声点的滤波方法比较

Table 2. Comparison of noise filtering methods

NamePrincipleCharacteristic
ThroughfilterAccording to point cloud, threshold should be set inrange of X, Y, and Z axes, and then threshold isfiltered to remove points that are out of range.Fast, but not accurate enough,mostly used for rough processingin the first step.
StatisticalfilteringNoise point is removed according to point density.The denser the points at certain area, the larger theamount of information. The noise information is useless,and amount of information is small. By calculating averagedistance of each point to its nearest k points,Gaussian distribution of distances of all pointsin point cloud is obtained to eliminate noise.The effect is better than the pass-throughfilter, which can accurately filter out noisepoints inside bounding box.
RadiusfilteringGiven a radius threshold, calculate the number ofpoints in its radius for each point in the point cloud.When the number is greater than a given number ofthresholds, point is retained, otherwise point istaken as a noise point and rejected.Filter out noise points insidebounding box at a faster rate.

查看所有表

目前,地面滤波的方式主要有基于高程的滤波方法、基于模型的滤波方法、基于区域生长的滤波方法、基于窗口移动的方法和基于三角网的滤波方法。如表3所示,给出了现有地面滤波方法的现状及比较。

表 3. 地面滤波方法比较

Table 3. Comparison of ground filter methods

NamePrincipleCharacteristic
Elevation basedfiltering methodAccording to point distribution filtering in point cloud,manually set or adaptively find z-direction threshold,and filter out point where z-value is less than thresholdin point cloud as ground.Fast, low robustness.
Model basedfiltering methodSelect a model to fit ground (such as RANSAC-basedplanar model, CSF cloth simulation) and usefitted inner point as ground point.The algorithm is suitable forspecific environments, and the robustness ispoor, but the filtering effect is relatively good.
Filtering methodbased onregion growingTaking normal vector direction of point as criterion forregional growth, first adaptively find the point that ismost likely to be the ground. Based on this, based onangular difference between normal vector direction of itsneighborhood point and its normal vector direction, it isjudged whether it grows or not. Continuous iteration tofind all ground points.When the ground is not undulating,the algorithm can separate the ground well,but the time and space cost are relatively large.
Method based onwindow movementPoints distributed on ground should be of a continuousnature. Set a suitable window size to find the lowestpoint in current window. Then set threshold by thelowest point calculation model and filter out all pointswhere elevation difference exceeds threshold.Faster, but the window size is toodependent on manual settings, andonly local features are considered.
Triangulationbased filteringmethodThe discrete points are connected according to a certainrule into a plurality of triangles covering entire areawithout overlapping each other to form an irregulartriangular network. The sparse TIN is generated by theseed point, and slope of model is analyzed to performinitial segmentation, and slope is eliminated. Largetriangular regions, and then through connectivityanalysis to obtain features such as elevationdifferences for each segment.It avoids data redundancy when terrain isflat, but data structure is complexand space complexity is high.

查看所有表

4.2 点云的特征提取与分割

点云的稳健特征提取与分割是室外场景理解的重要研究内容。稳健的特征是描述3D场景的基础表达。图8为点云特征提取以及点云分割研究现状[17-33]表4给出了常用的点云特征描述方法及比较。点云稳健特征的提取能够更好地表征场景内的目标对象,而且,有效点云块的初始化分割减少了后续场景理解工作的计算量。然而,对于彩色激光点云稳健特征的提取及分割,目前的研究相对较少,尚未面向室外场景。

4.3 3D点云的语义理解

语义分割是场景理解的基础和前提,即在语义分割基础上,结合其他信息,可以继续推理得到其他高层语义,如场景类别(街道、海边、城市或室内)、真实世界中的3D结构、场景中正在发生的事件等,进而实现场景的理解[17-18]。点云数据中的几何信息通常以原始无序的、密度分布不匀的3D空间点集的形式存在,数量从几千到上千万个不等,数据量较大[23]。面对着越来越庞大的3D点云数据,传统的人工手段解决海量3D数据语义解析的工作量较大,且效率低,而且计算机硬件的不断增强和软件技术的发展也使得处理3D数据的能力越来越强。尤其是机器学习和深度学习理论及其在多个领域的成功应用,为基于3D点云的语义分割与场景理解提供了重要的技术手段。

随着机器学习理论不断完善,基于点云的分类、识别等场景理解研究取得了较多的研究成果。国内外的研究者针对点云分类提出了大量算法,主要分为两大类,即基于点的分类和基于分割的分类。

图 8. 点云特征提取及点云分割研究现状

Fig. 8. Research status of point cloud feature extraction and point cloud segmentation

下载图片 查看所有图片

基于点的分类是直接对每一个3D点进行分类。如Hackel等[34]就是根据密度构建尺度金字塔,计算每个点共144维特征向量,并使用分类器训练来对室外场景点云直接分类。Weinmann等[35]首先选取尺度大小不同的最近邻,之后提取多种特征并使用分类器对大场景点云进行分类。但是,由于点的特征提取受到尺度的限制,因此对于环境多样化的室外场景,基于点的分类效果并不好。

基于分割的分类首先对点云数据进行分割,之后再判别每个分割块的类别。如Xiang等[36]根据法线信息对每个点构建邻接关系,并组成大的分割块,再利用支持向量机(SVM)判别来实现城市道路场景的点云分类。Aijazi等[37]将3D点体素化后合并成超体素,再根据设定的阈值对超体素进行划分进而完成点云分类。基于分割的分类相对计算速度较快,能提取更加丰富的特征信息。然而,该类算法对前期的初始化分割比较敏感。

这类基于机器学习的方法主要是通过大量样本训练有效的分类器,然而,有效的特征描述是这个分类模型的关键内容。用于点云描述的特征如4.2节所述,虽然目前提出了大量的特征描述方法,但是其表征能力有限,并不适用于所有的点云。目前点云分类常用的机器学习分类器主要有SVM[38],cascaded AdaBoost[39],random forest[40-41]等,但这些分类器的训练还是依赖于有效特征的选取。

表 4. 常用的点云特征描述方法及比较

Table 4. Common methods and comparison of point cloud feature descriptions

NameTypePrincipleCharacteristic
SpinimageLocalfeatureCount projection coordinates of allvertices to base plane to obtain descriptor.Resistance to rigid transformationand background interference;sensitive to density changes.
3DSCLocalfeatureCounting number of points in different grids ofspherical neighborhoods to obtain descriptors.Strong discrimination, anti-noise.
PFHLocalfeatureParameterize the spatial difference between pointand neighborhood and form a multi-bit histogram.Highly robust to point cloud densitychanges; high computational complexity.
FPFHLocalfeatureRecalculate K neighborhood by calculatingtuple of the query point and its neighborscompared to the PFH.Retains most of recognition capabilitiesof PFH, and reduces computationalcomplexity compared to PFH.
SHOTLocalfeatureSpherical neighborhood rasterization, construct ahistogram according to the angle of normal vector,and then concatenate histogram.Descriptive, anti-noise;large amount of calculation,sensitive to density changes.
ESFGlobalfeatureDescribe angle, distance, and triangle area ofthree random points in a point cloud.No need for pre-processing,strong feature description.
VFHGlobalfeatureAdd pilot direction to relative normalcalculation after extending FPFH.Strongly discernible.

查看所有表

此外,室外场景彩色激光点云的数据量大、目标信息多样以及受环境干扰明显等特性增加了点云的分类难度。因此,面向室外场景彩色激光点云的分类仍需进行深入地研究。

计算能力的提高及张量数据理论的发展推动了深度学习在场景理解方面的广泛应用,对于点云理解的深度网络被不断地提出。目前,基于深度学习的点云理解,主要面临3个方面的挑战:1) 点云数据是分布在空间中的任意点(X,Y,Z),属于非结构化的数据,由于没有结构化的网格而无法直接使用卷积神经网络(CNN)滤波器;2) 点云本质上是3D的一长串点,从几何意义上来讲,点的顺序不影响它在底层矩阵结构中的表示方式,相同的点云可以由两个完全不同的矩阵表示;3) 点云的数量不同于图像中像素,像素的数量是一个给定的常数,取决于相机。然而,点云的数量是不确定的,点云的多少取决于传感器及扫描的场景等因素。

目前,针对点云的深度学习网络主要分为3大类,即基于2D投影的深度学习网络、基于3D体素化的CNN和基于点云中单个点的网络模型。

1) 基于2D投影的深度学习网络

受深度学习在2D图像上取得较好的效果的启发,文献[ 42]和文献[ 43]将3D点云投影到2D图像后作为CNN的输入。常用的2D投影图像有基于虚拟相机的RGB图像、基于虚拟相机的深度图、基于传感器获取的距离图像和全景图像等映射图像。这些投影的方法通过利用2D图像中已经经过大量图像训练好的目标检测[43]与语义分割的网络模型作为预训练的模型进行微调,可以在2D图像上获取较好的检测与分类效果。常用的预训练模型主要有:VGG-16、Alexnet、Googlenet、FCN、U-NET等。

MVCNN[42]、Snapnet[44]和DeePr3SS[45]等方法采用多视角投影的方法进行点云的分类。目前,Snapnet和DeePr3SS的分类效果在Semantic 3D数据集的reduced-8上的Benchmark排名分别为第7和第9[46]。由此可知,这类方法还存在很多改进的空间。此外,这类方法容易造成3D结构信息的丢失,而且投影角度的选取和同一角度的投影对物体的表征能力也不同,对网络的泛化能力有一定的影响。

2) 基于3D体素化的CNN

为了保留更多的3D结构信息,研究人员在对2D CNN模型的基础上进行改进,通过对点云进行体素化等预处理操作,提出了基于3D CNN模型。最早的是由Maturana等[47]基于监督3D CNN和点云体素化提出的VoxNet网络模型;Gernot团队提出OctNet网络模型,通过非平衡八叉树和3D CNN,对点云进行了高分辨率体素表征,并且将表征后的结果在目标分类、点云标记等工作中进行了验证[48]。这类方法保留了大量的3D结构信息,但如文献[ 49]提出的基于3D CNN的大场景标注方法虽取得了不错的效果,但只考虑了单一的体素尺度。为了进一步提高体素的表征能力,相继地提出了多种多尺度体素的CNN方法,如Semantic 3D Net[8]、MS3_DVS[50]和MVSNet[51]

体素化是这类方法的基础,目前体素化的方法通常有基于0-1表示是否有点的体素方法、基于体素网络密度的方法和基于网格点的方法[47]。现有的体素化的尺寸主要有11×11×11[51]、16×16×16[8]、20×20×20[49]和32×32×32[50]。此外,由于点云的数据量大,有研究人员采用降采样体素化的方法降低数据量[49],也有研究者通过体素化的方式将点云结构化,然后利用3D CNN、3D FCN等方法进行语义分割[52]

基于3D体素化的CNN方法在Semantic 3D数据集上的Benchmark排名相对靠前。此外,这类方法通过网格化提供了点云结构,网格的转换解决了排列问题,同时也得到了数量不变的体素。然而3D CNN卷积时计算量非常大,通常会降低体素的分辨率,增加了量化的误差。此外,网络中仅利用了点云的结构信息,没有考虑到点云的颜色、强度等信息。

3) 基于点云中单个点的网络模型

为了充分利用点云的多模态信息,减少预处理过程中的计算复杂度,基于点云中单个点的网络模型逐渐被提出。如斯坦福大学Charles等[53]针对室内的点云场景提出了PointNet,对室内点云数据进行了分类、部分分割、语义分割3部分工作,而后,针对PointNet中局部特征信息进行了改进,推向多尺度,综合局部特征提出了PointNet++网络模型[53];Li等[54]在PointNet基础上进行改进,提出PointCNN,该方法通过对点云特性的分析,提出了一种基于点云中点学习到的X变换方法,然后将其用于同时加权与点关联的输入特征,并将它们重新排列成潜在隐含的规范顺序,之后再在元素上应用求积和求和运算。虽然所提算法能够对点云卷积处理的性能有所提高,但X变换方法还有较大的改进空间,尤其是在排序方面。

此外,最新的SO-net[55]的提出以及对PointNet改进提出的PointFlowNet[56]等网络模型均取得了较好的效果,但是对于大规模点云还具有一定的局限性,但这些网络为后续的大规模点云的语义分割提供了重要基础。

鉴于基于点的网络模型在点云分类上取得的较好效果,越来越多的研究对这类方法进行改进。由于原始的PointNet对于大规模点云具有局限性,有研究者预先对大规模点云进行分割或者分块处理,然后利用PointNet网络进行分类,如SPGraph[9],该方法在目前的Semantic 3D数据集的Semantic-8和reduced-8上的Benchmark均排名第一。

以上3类方法各有各的优缺点。此外,目前关于点云场景语义理解的方法大多是针对单体目标的识别、室内或者室外小场景的语义分割。针对室外大场景稠密激光点云的场景理解网络模型还有很多问题亟待解决。因此,对于室外复杂大场景的点云理解还有待进一步的研究。

5 结束语

面向真实场景的多通道高效表征和场景理解具有重要价值和现实意义。3D场景理解是真实3D地图、L5级自动驾驶以及机器智能等研究的关键。基于3D点云的语义分割与场景理解等智能感知方面因其数据丰富具有明显的优势,但是目前基于3D点云的场景理解效果还有众多内容有待去深入研究,尤其是针对彩色激光点云的场景理解。本文通过对现有3D点云数据获取及场景理解的关键技术进行分析总结,归纳出了以下仍需重点研究的几点:

1) 针对基于学习方法需要大量有标注的样本问题,海量3D数据,尤其是彩色激光点云数据,人工标注效率低,需要研究快速的、高精度的自动标注方法;此外,对于内容丰富的、有标签的室外点云场景理解数据集相对较少,构建一套作为Benchmark的数据库也十分重要。

2) 目前多数3D点云场景理解网络模型需要对点云进行大量预处理,如体素化等,增加了算法的复杂度。并且很多方法将3D信息投影到2D,再利用深度学习网络模型进行场景理解,丢失了部分3D信息。为了提高场景理解的效率,充分利用点云的3D信息,基于深度学习的端到端场景理解模型,即构建出由点到点标签的稳健性的网络模型是重要的研究方向。

3) 由于点云数据样本中各类目标的点数并不均衡,且室外大场景的点云较为复杂、差异大,例如街景场景中车辆、行人、建筑物等目标的个数不同,且各类目标中的点云的点数相差较大,从而导致在深度学习网络模型训练时存在样本不均衡问题,容易导致网络模型的识别结果偏向于样本较大的类别。因此,解决训练样本不均衡问题是重要的研究内容。

4) 目前获取的3D点云场景数据的精度和点云与颜色配准的效果还有待进一步提高。近年来,随着传感器的发展,3D点云数据获取装置的研究更注重其高精度、信息丰富性、高通过性、获取数据规模的广阔性以及装置的便携性等。

5) 目前基于3D点云数据的场景理解大多是对点云数据进行目标检测与语义分割,获取场景中的目标位置、种类和语义信息等内容,感知场景中感兴趣的内容,但对整个场景的理解还不够充分。除了端到端更加完善的目标检测、语义分割和场景分类的深度网络模型是关键的技术重点外,对场景中各个目标的拓扑关系、场景中目标的行为与分析等内容的理解也是场景理解需要突破的关键技术与发展方向。

参考文献

[1] Kim BS, KohliP, SavareseS. 3D scene understanding by voxel-CRF[C]∥2013 IEEE International Conference on Computer Vision, December 1-8, 2013, Sydney, NSW, Australia. New York: IEEE, 2013: 1425- 1432.

[2] Zhuang Y, He G J, Hu H S, et al. A novel outdoor scene-understanding framework for unmanned ground vehicles with 3D laser scanners[J]. Transactions of the Institute of Measurement and Control, 2015, 37(4): 435-445.

[3] 佟国峰, 杜宪策, 李勇, 等. 基于切片采样和质心距直方图特征的室外大场景三维点云分类[J]. 中国激光, 2018, 45(10): 1004001.

    Tong G F, Du X C, Li Y, et al. Three-dimensional point cloud classification of large outdoor scenes based on vertical slice sampling and centroid distance histograms[J]. Chinese Journal of Lasers, 2018, 45(10): 1004001.

[4] 闫飞, 庄严, 王伟. 移动机器人基于多传感器信息融合的室外场景理解[J]. 控制理论与应用, 2011, 28(8): 1093-1098.

    Yan F, Zhuang Y, Wang W. Outdoor scene comprehension of mobile robot based on multi-sensor information fusion[J]. Control Theory & Applications, 2011, 28(8): 1093-1098.

[5] IzadiS, KimD, HilligesO, et al. KinectFusion : real-time 3D reconstruction and interaction using a moving depth camera[C]∥Proceedings of the 24th Annual ACM Symposium on User Interface Software and Technology, October 16-19, 2011. Santa Barbara, California, USA. New York: ACM, 2011: 559- 568.

[6] 卢秀山, 俞家勇, 田茂义, 等. 车载激光点云与序列化全景影像融合方法[J]. 中国激光, 2018, 45(5): 0510004.

    Lu X S, Yu J Y, Tian M Y, et al. Fusion method of vehicle laser point cloud and serialized panoramic image[J]. Chinese Journal of Lasers, 2018, 45(5): 0510004.

[7] BircherA, AlexisK, BurriM, et al. Structural inspection path planning via iterative viewpoint resampling with application to aerial robotics[C]∥IEEE International Conference on Robotics and Automation (ICRA), May 26-30, 2015, Seattle, WA, USA. New York: IEEE, 2015: 6423- 6430.

[8] Hackel T, Savinov N, Ladicky L, et al. Semantic 3D. net: a new large-scale point cloud classification benchmark[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2017, 4: 91-98.

[9] LandrieuL, SimonovskyM. Large-scale point cloud semantic segmentation with superpoint graphs[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 19-21, 2018, Salt Lake City, Utah, USA. New York: IEEE, 2018: 4558- 4567.

[10] SilbermanN, HoiemD, KohliP, et al. Indoor segmentation and support inference from RGBD images[C]∥European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2012: 746- 760.

[11] Song SR, Lichtenberg SP, Xiao JX. SUN RGB-D: a RGB-D scene understanding benchmark suite[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 7-12, 2015, Boston, MA, USA. New York: IEEE, 2015: 567- 576.

[12] 陈长军, 王刚, 关鸿亮. 基于激光扫描与全景影像的车载测量集成系统: CN202782968U[P].2013-03-13.

    Chen CJ, WangG, Guan H L. Vehicle-mounted measure integrated system based on laser scanning and panorama images:CN202782968U[P]. 2013-03-13.

[13] Felix R. Method of generating panorama views on a mobile mapping system: EP20140156863[P].2015-09-02.

[14] Pomerleau F, Liu M, Colas F, et al. Challenging data sets for point cloud registration algorithms[J]. The International Journal of Robotics Research, 2012, 31(14): 1705-1711.

[15] Sydney urban objectsdataset[EB/OL] ( 2013-11-04)[2018-07-18] http:∥www. acfr.usyd.edu.au/papers/SydneyUrbanObjectsDataset.shtml.

[16] WuZ, SongS, KhoslaA, et al. 3D shapeNets: A deep representation for volumetric shapes[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 1912- 1920.

[17] Johnson AE. Spin-images: a representation for 3-D surface matching[D]. Pennsylvania: Carnegie Mellon University, 1997.

[18] FromeA, HuberD, KolluriR, et al. Recognizing objects in range data using regional point descriptors[C]∥European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2004: 224- 237.

[19] Rusu RB, BlodowN, Marton ZC, et al. Aligning point cloud views using persistent feature histograms[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems, September 22-26, 2008, Nice, France. New York: IEEE, 2008: 3384- 3391.

[20] Salti S, Tombari F, Di Stefano L. SHOT: unique signatures of histograms for surface and texture description[J]. Computer Vision and Image Understanding, 2014, 125: 251-264.

[21] WohlkingerW, VinczeM. Ensemble of shape functions for 3D object classification[C]∥IEEE International Conference on Robotics and Biomimetics, December 7-11, 2011, Karon Beach, Phuket, Thailand. New York: IEEE, 2011: 2987- 2992.

[22] Rusu RB, BradskiG, ThibauxR, et al. Fast 3D recognition and pose using the viewpoint feature histogram[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems, October 18-22, 2010, Taipei, Taiwan, China. New York: IEEE, 2010: 2155- 2162.

[23] Rusu RB, BlodowN, BeetzM. Fast point feature histograms (FPFH) for 3D registration[C]∥IEEE International Conference on Robotics and Automation, May 12-17, 2009, Kobe, Japan, New York: IEEE, 2009: 3212- 3217.

[24] Sappa AD, DevyM. Fast range image segmentation by an edge detection strategy[C]∥Proceedings Third International Conference on 3-D Digital Imaging and Modeling, May 28-June 1, 2001, Quebec City, Quebec, Canada. New York: IEEE, 2001: 292- 299.

[25] 柯映林, 单东日. 基于边特征的点云数据区域分割[J]. 浙江大学学报(工学版), 2005, 39(3): 377-380.

    Ke Y L, Shan D R. Edge-based segmentation of point cloud data[J]. Journal of Zhejiang University (Engineering Science), 2005, 39(3): 377-380.

[26] PaponJ, AbramovA, SchoelerM, et al. Voxel cloud connectivity segmentation-supervoxels for point clouds[C]∥IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2013, Portland, OR, USA. New York: IEEE, 2013: 2027- 2034.

[27] Vo A V, Truong-Hong L, Laefer D F, et al. Octree-based region growing for point cloud segmentation[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 104: 88-100.

[28] 杨泽鑫, 程效军, 李泉, 等. 平面舱壁类型的船舱点云分割方法[J]. 中国激光, 2017, 44(10): 1010006.

    Yang Z X, Cheng X J, Li Q, et al. Segmentation of point cloud in tank of plane bulkhead type[J]. Chinese Journal of Lasers, 2017, 44(10): 1010006.

[29] Wang YM, Shi HB. A segmentation method for point cloud based on local sample and statistic inference[M] ∥Bian F L, Xie Y C. eds. Geo-Informatics in Resource Management and Sustainable Ecosystem. Berlin, Heidelberg: Springer, 2015: 274- 282.

[30] Green WR, GroblerH. Normal distribution transform graph-based point cloud segmentation[C]∥Pattern Recognition Association of South Africa and Robotics and Mechatronics International Conference, November 26-27, 2015, Port Elizabeth, South Africa. New York: IEEE, 2015: 54- 59.

[31] Yang J Y, Gan Z Q, Li K, et al. Graph-based segmentation for RGB-D data using 3-D geometry enhanced superpixels[J]. IEEE Transactions on Cybernetics, 2015, 45(5): 913-926.

[32] 程效军, 程小龙, 胡敏捷, 等. 融合航空影像和LIDAR点云的建筑物探测及轮廓提取[J]. 中国激光, 2016, 43(5): 0514002.

    Cheng X J, Cheng X L, Hu M J, et al. Buildings detection and contour extraction by fusion of aerial images and LIDAR point cloud[J]. Chinese Journal of Lasers, 2016, 43(5): 0514002.

[33] WolfD, PranklJ, VinczeM. Fast semantic segmentation of 3D point clouds using a dense CRF with learned parameters[C]∥IEEE International Conference on Robotics and Automation (ICRA), May 26-30, 2015, Seattle, WA, USA. New York: IEEE, 2015: 4867- 4873.

[34] Hackel T, Wegner J D, Schindler K. Fast semantic segmentation of 3D point clouds with strongly varying density[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2016, 3(3): 177-184.

[35] Weinmann M, Jutzi B, Hinz S, et al. Semantic point cloud interpretation based on optimal neighborhoods, relevant features and efficient classifiers[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 105: 286-304.

[36] Xiang BB, YaoJ, Lu XH, et al. Segmentation-based classification for 3D urban point clouds[C]∥IEEE International Conference on Information and Automation (ICIA), August 1-3, 2016, Ningbo, China. New York: IEEE, 2016: 172- 177.

[37] Aijazi A K, Checchin P, Trassoudaine L. Segmentation based classification of 3D urban point clouds: a super-voxel based approach with evaluation[J]. Remote Sensing, 2013, 5(4): 1624-1650.

[38] Ghamisi P, Höfle B. LiDAR data classification using extinction profiles and a composite kernel support vector machine[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(5): 659-663.

[39] Lodha SK, Fitzpatrick DM, Helmbold DP. Aerial lidar data classification using AdaBoost[C]∥Sixth International Conference on 3-D Digital Imaging and Modeling (3DIM 2007), August 21-23, 2007, Montreal, QC, Canada. New York: IEEE, 2007: 435- 442.

[40] Ni H, Lin X G, Zhang J X. Classification of ALS point cloud with improved point cloud segmentation and random forests[J]. Remote Sensing, 2017, 9(3): 288.

[41] NiemeyerJ, RottensteinerF, SoergelU. Classification of urban LiDAR data using conditional random field and random forests[C]∥Joint Urban Remote Sensing Event 2013, April 21-23, 2013, Sao Paulo, Brazil. New York: IEEE, 2013: 139- 142.

[42] SuH, MajiS, KalogerakisE, et al. Multi-view convolutional neural networks for 3D shape recognition[C]∥IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 945- 953.

[43] Qi CR, SuH, NießnerM, et al. Volumetric and multi-view CNNs for object classification on 3D data[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30,2016, Las Vegas, NV, USA. New York: IEEE, 2016: 5648- 5656.

[44] Boulch A. Guerry J, le Saux B, et al. SnapNet: 3D point cloud semantic labeling with 2D deep segmentation networks[J]. Computers & Graphics, 2018, 71: 189-198.

[45] Lawin FJ, DanelljanM, TostebergP, et al. Deep projective 3D semantic segmentation[C]∥International Conference on Computer Analysis of Images and Patterns. Cham: Springer, 2017: 95- 107.

[46] HackelT, SavinovN, LadickyL, et al. SEMANTIC3D.NET: a new large-scale point cloud classification benchmark[M/OL]. ISPRS annals of the photogrammetry, remotesensing and spatial informationsciences. 2017, IV-1-W1: 91-98. [2018-07-20]. http:∥www.semantic3d.net/view_results.php?chl=2.

[47] MaturanaD and SebastianS. VoxNet: a 3D convolutional neural network for real-time object recognition[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems, Congress Center Hamburg, September 28-October 2, 2015, Hamburg, Germany. New York: IEEE, 2015: 922- 928.

[48] RieglerG, Ulusoy AO, GeigerA. OctNet: learning deep 3D representations at high resolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017, 3: 6620- 6629.

[49] HuangJ, You SY. Point cloud labeling using 3D convolutional neural network[C]∥23rd International Conference on Pattern Recognition (ICPR), December 4-8, 2016, Cancun, Mexico. New York: IEEE, 2016: 2670- 2675.

[50] RoynardX, Deschaud JE, François G. Classification of point cloud scenes with multiscale voxel deep network[EB/OL]. ( 2018-04-10)[2018-07-18]. https:∥arxiv.org/abs/1804. 03583.

[51] Wang L, Huang Y C, Shan J, et al. MSNet: multi-scale convolutional network for point cloud classification[J]. Remote Sensing, 2018, 10(4): 612.

[52] TchapmiL, ChoyC, ArmeniI, et al. SEGCloud: semantic segmentation of 3D point clouds[C]∥International Conference on 3D Vision (3DV), October 10-12, 2017, Qingdao, China. New York: IEEE, 2017: 537- 547.

[53] Charles RQ, SuH, Mo KC, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 77- 85.

[54] Li YY, BuR, Sun MC, et al. PointCNN: convolution on χ-transformed points[EB/OL]. ( 2018-11-05)[2018-07-15]. https:∥arxiv.org/abs/1801. 07791

[55] LiJ, Chen BM, Lee GH. SO-net: self-organizing network for point cloud analysis[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 18-23, 2018. Salt Lake City, UT, USA. New York: IEEE, 2018: 9397- 9406.

[56] BehlA, PaschalidouD, DonnéS, et al. PointFlowNet: learning representations for 3D scene flow estimation from point clouds[EB/OL].( 2018-06-06)[2018-07-18]. https:∥arxiv.org/abs/1806. 02170.

李勇, 佟国峰, 杨景超, 张立强, 彭浩, 高华帅. 三维点云场景数据获取及其场景理解关键技术综述[J]. 激光与光电子学进展, 2019, 56(4): 040002. Yong Li, Guofeng Tong, Jingchao Yang, Liqiang Zhang, Hao Peng, Huashuai Gao. 3D Point Cloud Scene Data Acquisition and Its Key Technologies for Scene Understanding[J]. Laser & Optoelectronics Progress, 2019, 56(4): 040002.

本文已被 8 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!