数据捕捉设备
如果没有一些精密复杂的数据捕捉设备,“House of Cards”视频就不可能成功。当你观看视频,你会注意到有很多场景,从静态的郊区风景到歌手Thom Yorke所唱的动态点云(pint clouds)场景。为了同时捕捉对Thom的歌唱和风景相结合的特写,我们需要使用两种不同的设备:Velodyne公司的Lidar(激光雷达)和Geometric Informatics公司的可视化系统。
Velodyne公司的Lidar
Velodyne是坐落在美国加州的San Jose南部的一家公司,由两个人来运营,他们业余时间会参加机器人大赛如Battle Bots和Robot Wars竞赛。该公司生产扬声器、立体音响设备和强大的激光扫描设备,包括我们用于捕捉“House of Cards”视频所需要用到的风景和派对场景的HDL-64E Lidar(激光雷达设备)。HDL-64E真正声名显赫的原因是它被成功地应用于2007年DARPA城市挑战赛(Uban Challenge)的一些交通工具中,包括获得冠军的团队,成功地把它应用于环境和地形来提高视觉力。在某些情况下,它是这些交通工具的唯一视觉系统。
Velodyne公司的HDL-64E Lidar是一个扫描仪,包含64个激光发射器和64个激光检测器。它围绕一个圆圈旋转,以360°水平方向和26.8°垂直方向旋转收集数据,每秒可以扫描超过100万个数据点,收集到接近5MB的原始数据。默认情况下,Lidar以600RPM(10Hz)的速率旋转,可以通过系统计算机的序列化端口发送文本命令来调整速率,速率范围介于300~900RPM。在扫描静态风景时,为了达到最佳分辨率,我们采用了其最高设置900RPM。
Lidar的可达范围随环境的反射率而变化。例如,沥青路面可以拍摄50米以内的范围,而汽车和树叶(它们的反射率更高)可以达到120米。Lidar最小的可达范围是3英尺,如果更近,那么光线反射回检测器太快,以致无法计量。
发射-检测设备被划分成两组,每组包含32个激光斜岸(Lser bank),如图10-2所示。上斜岸指向斜上方,与仰角的上半角方向一致;换句话说,它扫描了Lidar的上半个垂直视图域。与此相反,下斜岸扫描了仰角的下半个视角。通常上斜岸仰角更高,因此对于处在远处的一个物体,上斜岸的激光脉冲可以到达的位置范围比下斜岸的要大。为了在更长的距离获取好的分辨率,上斜岸的激光被触发的次数是下斜岸的被触发次数的三倍。从视频的静态图片中可以看到这种方式对我们的数据所产生的影响,如图10-3所示。
Lidar通过发射一束光(即激光束)并测量该光束返回的光量来获取一个数据点。随着设备的运行,这64个发射器每个都释放持续5ns的光脉冲;然后使用透镜对脉冲进行聚焦,再用平面镜把光线反射到外界环境中。如果该光线在外界环境中照射到某些物体,会有一小部分光线反射回Lidar。这种反射回的光线会穿过激光接收透镜和太阳光紫外线过滤器。太阳光紫外线过滤器能够限制太阳所带来的光量;如果没有这个过滤器,自然太阳光线会降低系统的灵敏度,从而给数据带来很多噪音数据。
图 10-2:Velodyne公司的Lidar(图像来源于Velodyne公司)
图 10-3:派对场景的一张静态图片,通过Velodyne的Lidar拍摄。注意该图片上方的分辨率更高,这是由于在上斜岸的激光的触发速率更快(见彩图23)
发射回来的光线经过太阳光过滤器后,接收透镜会把返回的光线聚焦于名为Avalanche Photodiode(APD)的光检测装置上,该装置生成和接收的光线强度相当的输出信号。将APD的输出信号进行放大并把模拟信号转换成数字信号。然后把数据发送给数字信号处理器,该处理器决定返回信号的时间。脉冲的强度和返回时间构成了一个数据点。正如我之前所说,HDL-64E模型每秒创建了超过100万的数据点,即每秒超过5MB的原始数据。
等数据创建完成后,传感器通过标准的100BaseT以太网端口把结果数据输出给用户。数据以等于旋转速率的帧速率(600RPM=10Hz帧速率)不断地从以太网端口输出。以太网数据包中记录了每个发射器-检测器的距离、密度和角度相关的数据。然后通过以太网包捕获程序捕获这些数据,而在我们这个项目中,将会把捕获的数据保存到硬盘上。
Geometric Informatics公司
Lidar是对户外景色进行可视化的神奇工具。它可以根据距离检测一个镍币的大小,在较大的空间中工作良好,但是对于人脸的轮廓和细节的识别,它还不够完善。为了对Thom Yorke的歌唱进行特写,我们需要一些其他的东西。我们需要有更好的视觉。
当谈到如何近距离拍摄特写时,我突然想起在2005年SIGGRAPH会议上发现的叫做Geometric Informatics公司的设备。(题外话:如果你有任何很酷的数据可视化技术,请到每个会议上展示这些技术,我有可能会参加这些会议。谢谢。)Geometric Informatics公司在该会议上有个展台,演示其称为GeoVideo的系统。
GeoVideo是一个实时动作捕捉系统,它尤其适合捕捉人脸的几何图形。在近距离拍摄时,它的效果明显优于Lidar系统,它能够检测到0.2mm的数据点,而Lidar只能检测到2cm的数据点。有了GeoVideo,我们能够捕捉到Thom Yorke唱歌时的具体细节。你在视频开始看到的点云数据(pint cloud data)就是通过GeoVideo捕捉的。
如果你认为图10-4所绘的图看起来挺简单,那是因为该设备外表看起来确实没有很多特别的地方。系统看起来像一个米色的箱子,每面有个胶卷,有两个透镜。一个透镜把一个区域的光线投影到箱子前面,而另一个透镜则捕捉该数据。光线区域包含60万个直角的网格,该网格在效果上形成一个即时等高线图,投影到传感器的前面。然后,传感器读取每个直角点作为一个数据点,然后把这些原始数据以每秒54MB的速率,不加任何改动地输出到一台计算机上。传感器每秒可以捕捉180帧。
采用GeoVideo的方法把光线区域投影到物体上的优点是,无论传感器前面需要被投影的是什么东西,都不需要在其上画上一些网格,不需要穿着用于动作捕捉的“衣服”,也不需要坐在一个包含参照物标记的绿色屏幕前。光线投影创造了一个即时、可移植的参照图,其使用之简单达到了令人难以置信的程度。
图 10-4:Geometric Informatics系统(图像来源:Geometric Informatics公司,见彩图24)
GeoVideo系统也支持纹理映射,这意味着它不仅可以捕获数据点,而且可以捕捉这些数据点之间的纹理。综合而言,它可以达到对物体或者人脸进行精确的3D表现的效果。但是对于“House of Cards”视频,我们决定放弃纹理捕捉,而只使用其数据点。即使如此,我们还是进行了大量采样。其结果是你在视频开场看到的Thom Yorke的数字化的“点云”。该图像看起来和Thom Yorke并非完全一致,而是像个数字化的头像或者精灵——至少,我觉得是这样。看了两个版本的数据——包含纹理的和不包含纹理的——我认为不使用纹理的那个版本看起来更有趣。有了纹理,他看起来有点像视频游戏中的一个角色。有时抛弃一些数据会使可视化效果更美丽。