用油管上的“木头人”挑战视频，谷歌训练出顶级的景深检测模型-五号时光网

大数据文摘出品

你玩儿过“一二三木头人吗”，一群到处移动的人在听到“木头人”三个字后，纷纷像冻住一样停下来！最近，在Youtube上，也出现了这样一波“木头人挑战”，而更有趣的是，谷歌把这些视频拿回家训练成了数据集，并且完成了一个最新研究：移动的单摄像头+移动的人，就能非常好的预测出视频中人的景深。

这篇论文也因此获得了CVPR 2019的荣誉提名奖（Honorable Mentioned Award），一起看看。

论文链接：

https://arxiv.org/pdf/1904.11111.pdf

人类的视觉系统有一种非凡的能力，可以通过二维投影来理解我们的三维世界，因此即使在有多个移动物体的复杂环境中，人们也能够对物体的几何形状和远近有正确的判断。

长期以来，计算机视觉领域一直在研究如何利用二维图像数据计算重建场景的几何结构，以实现和人眼类似的功能，但在许多情况下这仍然十分困难。

当摄像机和场景中的物体都在自由移动时，这种计算机模型的构建就非常有挑战性，因为它混淆了传统的基于三角测量的三维重建算法，而这种算法假定同一个物体可以同时从至少两个不同的视角观察。

要满足这个假设，要么需要一个多摄像机阵列（如谷歌的Jump），要么需要一个在单个摄像机移动时保持画面内物体的静止。因此，大多数现有的方法要么过滤掉移动对象（给它们的深度值赋为“零”），要么忽略它们（这会导致不正确的深度值）。

然而多摄像机阵列的构建成本非常高，并且需要现场拍摄以构建大量的数据；而在单个摄像机移动时保持画面内物体的静止，却因为一项挑战产生了很多现成的高质量的视频数据——木头人挑战（Mannequin Challenge）。

谷歌的这篇论文就巧妙地利用了YouTube上大量挑战视频作为数据集，然后利用深度学习构建了一个模型，可以从普通视频生成深度地图，在这种视频中摄像机和主体都可以自由移动。

提取到到视频中的景深后就可以进行一些很有意思的应用了，比如利用其他帧的画面去填补被人物遮挡的区域：

在这篇论文中，研究人员应用了一种基于深度学习的方法，该模型通过从数据中学习人体姿态和形状的先验知识，避免了直接的三角测量。虽然最近在使用机器学习进行深度预测方面出现了激增，但这项工作是第一次针对摄像机和人体运动同时进行的情况调整一种基于学习的方法。

模型提取景深的效果

数据集来自YouTube“木头人挑战“

研究人员在有监督的方式下训练深度学习模型，这需要由移动的摄像机捕捉的自然场景的视频，以及精确的深度图，关键问题是从哪里得到这些数据。

研究人员巧妙地利用了现有的YouTube挑战视频，视频中人们通过各种各样的自然姿势来模仿木头人，而摄影机则在场景中移动巡视。由于整个场景是静止的（只有摄像机在移动），基于三角测量的方法——如多视点立体视觉(MVS)可以持续工作，这样便可以获得包括人在内的整个场景的精确深度图。

研究人员收集了大约2000个这样的视频，涵盖了广泛的真实场景，人们自然地在不同的群体组合中摆各种固定姿势。

如何推测移动人物的深度

“木头人挑战”的视频为移动的摄像机和“静止”的人提供了深度监控，而研究人员的目标是可以处理用移动的摄像机和移动的人的视频，因此他们需要对神经网络的输入进行结构化，以便缩小这一差距。

一种可能的方法是分别推断视频的每一帧的深度（例如让模型的输入只有一帧），虽然这种模型在深度预测方面已经比最先进的单幅图像方法有所改进，但还是可以通过考虑多帧图像的信息来进一步改进预测结果，例如，运动视差，即静态物体在两个不同视点之间的相对视觉运动，可以提供强烈的深度线索。

为了从这些信息中提升效果，研究人员计算了视频中每个输入帧和另一帧之间的二维光流，它代表了两帧之间的像素位移。这个流场取决于场景的深度和相机的相对位置，然而，由于摄像机的位置是已知的，那么可以从流场中消除它们的依赖性，从而得到一个初始的深度图。

这个初始深度只适用于静态场景区域，为了在测试时处理移动的人，研究人员应用了一个人工分割网络来掩盖在初始深度图中的人类区域，完整输入包括: RGB 图像、人脸蒙版和来自视差的掩码深度图。

神经网络的工作是用人来“内置”区域的深度值，并在其他地方提取深度，直观地说，因为人类具有相对一致的形状和身体尺寸，网络可以通过观察许多训练例子在内部学习这些先验经验，一旦经过训练，模型就可以处理任意摄像头和人类运动的自然视频。

下面是基于视频的深度预测模型结果的一些例子，与最新的基于学习的方法进行比较。

3D视频深度检测效果

该视频景深检测模型可以用来产生一系列三维感知的视频效果，其中一种效应就是合成散焦，下面是一个示例：