智能手机上的3D传感器是这一时期的开端,想要更深入的开启摄影拍照的新时期,还需要不断的摸索研究。未来,在推进机器学习技术方面,会有另一个重要的阶段。我们有可能会放弃使用3D传感器,而仅仅使用卷积神经网络(CNN)来推断物体在空间中的坐标,这将节省在手机中安装传感器的费用。然而,就像微软的研究人员和学术合作者在本周发表的一份报告中所讨论的那样,目前这种只使用软件的方法收效甚微。他们写道,只使用软件的方法被称为“绝对姿态回归”(absolute pose regression),在经过训练后它并未能推而广之,这意味着无论卷积神经网络掌握了什么技术,在用新图像进行测试时,它都无法准确估量几何图形。
换句话说,它将利用所有的这些活动来持续进行学习,总有一天,只要有足够的3D图像,卷积神经网络或任何其它被使用的算法都能足够聪明地观察这个世界,即使没有3D传感器帮助提供深度感知能力,也能准确地知道这个世界是什么样的。
人们做了大量的统计工作来实现移轴镜头那样的物理特性,不管是有特殊摄像装置的,还是没有特殊摄像装置的。例如,一项名为“随机抽样一致性”(RANSAC)的技术可以追溯到1981年,专门用于寻找三维世界中的地标,这些地标可以映射到二维图像平面上的点,以便了解二维图像与三维现实世界之间的关系。使用这种技术,可以更好地理解二维呈现是如何与现实世界相对应的。
2015年,佛罗伦萨大学的一组研究人员在RANSAC技术的基础上,通过对相机拍摄的照片进行逆向推理,推导出了一种泛倾斜变焦相机的结构,他们能够通过软件来分析相机位置的不同在多大程度上引发了失真,从而有效地将控制相机的执行机构调至佳状态,他们可以将这种技术用于视频,而不仅仅是用于静止的图像。
2017年,德国埃尔兰根-纽伦堡大学和伍兹霍尔海洋学研究所的研究人员展示了一个名为CameraTransform的Python库,该库可让人们通过对拍摄的图像进行逆向计算,来估算物体在现实世界中的真实尺寸。
去年,德国慕尼黑工业大学和佳能公司的研究人员表示,只需拍一张图片就可以推断出被另一个物体遮挡的场景中有什么。这种技术被称为“分层深度图像”,可以通过从照片中移除一个物体来创建新的场景,呈现相机从未见过的背景,但这是通过图像计算实现的。该方法使用了许多神经网络应用中常见的编码-解码器方法来估计场景的深度,也使用了“生成对抗网络”(GAN)来构造场景中在拍摄照片时从未实际出现在视野里的部分。
所有的这些研究正在不断涌现,并将在下一代配备3D传感器的智能手机摄像头上达到高潮,带来一些不可思议的功能特性。这种研究应该会带来令人惊叹的成果。至少,人们可以想象,用智能手机拍摄出的人像不再会出现怪异的面部扭曲。超分辨率的建筑图片将有可能通过消除镜头上的所有扭曲而形成平行线。随着手机变得能够大量产生精确度和逼真度皆十分惊人的照片,智能手机行业将能够在与单反相机的交锋中取得又一场胜利。
但是,智能手机摄影的长期趋势当然是远离现实主义,而转向取得更引人注目的效果。这在计算摄影诞生之前是无法想象的。因此,我们可能会看到3D传感技术的应用趋向于超现实主义。举例来说,移轴相机可以用来创造一些出奇漂亮的效果,比如缩小景深到一个极端的程度,这会使得风景看起来就像玩具模型,但效果还是出奇的好,有些手机应用程序也能做到类似的事情,但将3D传感器与人工智能技术结合起来的效果,将远远超出那些应用程序所能达到的效果,Photoshop中有实现移轴的技术,但是每次按下快门按钮,相机都会产生同样的效果,毫无疑问会让人更加心满意足。