首页 雷火电竞官网正文

哎呀呀,谷歌猜测景深新研讨:即便相机人物都在动,单一角度也能组成3D深度图-雷火电竞

admin 雷火电竞官网 2019-05-26 423 0

铜灵 发自 凹非寺

量子位 出品 | 大众号 QbitAI

一个你边走边拍得到的一般视频,现在也能重建出精准的3D国际了。

这一次,谷歌用深度学习的办法,不仅从视频中重建了移动目标的景深图,并且作用精准冷艳。即便拍照相机和人物一起在运动,也能很好重建景深图。

输入这样的视频:

就能输出这样的3D景深版:

谷歌在博客中表明,这是国际首个在摄像机和人体一起运动情况下的深度学习景深猜测算法,优于制造深度图的最先进东西。

半响时刻,推特有近千次的点赞,网友表明:“超级酷”。

研讨论文也被CVPR 2019 接纳,锋芒毕露成为一篇Oral论文。

学习先验

让网友high起来的点在于,传统的创立景深图的办法,需求至少两个角度一起捕捉印象。通过两个不同的视角在同一时刻段的改动轨道,才干拼接重建出3D的印象。

就像下面这样:

而谷歌的这项研讨,只需求用一个角度的印象即可猜测方位联系进行重建,比传统办法简化了不是一星半点,变成了下面这样:

在论文Learning the Depths of Moving People by Watching Frozen People中,研讨人员介绍了详细的规划细节。

和传统办法最大的改善在于,谷歌的新办法能够用深度学习,从数据中学习人体姿势和形状的先验常识,避开了直接的3D三角测量(3D triangulation)。

这个模型应该怎么去构建?

怎么获取练习数据是摆在前面的第一个问题,在这个数据会集,需求移动的摄像机拍照的天然场景视频,以及准确的深度图。这样的数据集,好像在谷歌宗族产品中就能找到。

研讨人员选取了YouTube上关于#假人应战#(Mannequin Challenge)论题的数据,在这种类型的视频中,被拍照者需做出一个定格动作,且要体现与人体模型相同停止不动,并由摄影师透过移动镜头的技巧进行拍照:

有了这些数据,再利用多视角立体( Multi-View Stereo,MVS)算法,就能够获取到包含其间人物在内整个场景的深度图了。

组成景深图流程

搞定数据集后,第二个问题来了,怎么能在人物和摄像机一起移动的情况下构建景深图呢?

此前,谷歌在展现过在Pixel 3手机中,通过单目摄像头确认景深图的研讨。但在这个项目中,只要手机镜头在动,被拍照的人停止。

但这个研讨的难度明显晋级了。

研讨人员针对视频中的单个帧,独自进行深度揣度。他们计算了视频中每一帧和其他帧之间的2D光流(2D optical flow),用来表明两帧之间的像素位移。

为了在测验时处理移动的人物,他们采用了人像切割网络( human-segmentation network)来掩盖初始深度图中的人类区域。整个网路的完好输入包含:

此外,通过学习人类姿势和人体形状的先验,研讨人员细化了景深图中各种细节。

通过很多练习后,这个模型能够处理恣意相机方位和人体运动的天然视频。

研讨人员将这个新模型与此前DORN DeMoN等相似算法进行了测评比照,成果如下:

此外,除了组成景深图,这个新模型还能应用到将组成的CG目标刺进到视频场景中。

成果显现,即便晃动摄像机改动其方位,也能用视频其他帧的像素填充人物后边的布景区域。

传送门

谷歌官方博客:

https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html

论文地址:

https://arxiv.org/abs/1904.11111

作者系网易新闻·网易号“各有情绪”签约作者

声明:该文观念仅代表作者自己,搜狐号系信息发布渠道,搜狐仅供给信息存储空间服务。
雷火电竞版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

最近发表

    雷火电竞_雷火电竞官网_雷火电竞app

    http://www.zachita.com/

    |

    Powered By

    使用手机软件扫描微信二维码

    关注我们可获取更多热点资讯

    雷火电竞出品