2024T-EDGE文章详情顶部

“状态不够P图来凑”,聊一聊P图系统背后的技术原理

研究人员们将推出一个能够按照专业摄影师的风格进行自动修图的新系统,分分钟拍大片。

如果你是个不会拍照的男孩子,恰好你的女友又是个喜欢拍照的姑娘,那么你之后的拍照水平可能会被疯狂吐槽,不过,幸运的是,未来的新技术可能会帮你解决这个难题。

通常情况下,人们会将数码相机捕获到的数据视作一张照片的原材料。在将照片上传到社交网站之前,普通人都会调整一下照片的色度和对比度。

目前,来自“谷歌”和“MIT计算机科学和人工智能实验室”(麻省理工学院计算机科学和人工智能实验室)的研究人员们将推出一个能够按照专业摄影师的风格进行自动修图的新系统。这个修图系统能够以专业摄影师的风格对照片进行自动调整和润色,它不仅能在手机上运行,而且能够实时显示调整过后的照片。

图片来源:Courtesy of the researchers(由MIT新闻编辑)

这个系统非常高效、省力,它甚至能直接在手机上运行,而且其照片调整的速度极快,能够实时显示调整后的照片。也就是说,拍照者能够在取景拍摄的同时,看到调整后的照片。

这个系统还能给现有的图像处理算法提速。谷歌开发了一个用于生成“高动态范围”(HRD)图像的新算法,即捕捉标准的数字图像之间细微的色差。在针对这一新算法的测试中,这个系统生成的结果从视觉角度来说,很难在十分之一的时间内与算法生成的结果区分。这再次证明了,这一系统的速度快到足以即时显示出调整过后的图片。

这个系统是一个机器学习系统,这就意味着它要通过分析训练数据来完成任务的学习。对于每一项学习任务,它都要经过成千上万组图像的训练。

这项工作建立在MIT研究人员早期的一个项目上,在这个项目中,手机可以将一张图片的低分辨率版本发送到一个网络服务器。服务器会发回一个“转换秘方”,这个“转换秘方”可以用于指导如何在手机上对这张图片的高分辨率版本进行润色和调整。

“谷歌听说了我的‘转换秘方’,他们也作了一些相关的后续研究。所以我们打算将彼此的方法结合起来。这一想法的目的是继续我们之前的工作,但并不需要处理云中的所有数据,而是从中学习。从数据中学习的首要目标就为其提速。”

在新的研究中,大部分的图像处理工作都是基于低分辨率图像进行的,这大大地节约了时间和人力物力。但这也引发了一个新的难题,因为高分辨率图像中单个像素的色值必须要从机器学习系统的输出中推断得出。

过去,研究人员曾试图利用机器学习来学习基于低分辨率的图像将其放大进行采集,或通过猜测省略的像素值来增加其分辨率。训练期望达到——输入是一张低分辨率图像,而输出的将会是一张高分辨率图像的效果。但这在实际操作中并不奏效,输入的低分辨率图像已经遗漏了大量的数据。

Gharbi和他的同事们——MIT电子工程和计算机科学教授Frédo Durand、 Jiawen Chen,、Jon Barron以及谷歌的Sam Hasinoff——用了两个巧妙的方法来解决这个问题。第一个方法,他们使机器学习系统的输出不再是一张图像,而是一组用于修改图像像素颜色的简单公式。当这个公式应用于原始的数据图像时,得到的图像基本就是经过润色和修整过的图像了。

第二个方法目的是将那些公式应用于高分辨率图像中的独立像素。研究人员的系统的输出是一个16*16*8的三维立体网格。网格的16*16的面与源图像的像素位置相对应;叠加在这个网格上的8个层对应于不同的像素强度。网格的每个单元格都包含了决定源图像色值修改方案的公式。

这意味着,网格的16*16面的各个单元格都必须包含高分辨率图像的上千个像素。但是假设每一组公式对应其单元格中心的一个位置,那么任何给定的高分辨率图像都将处于一个由四组公式定义的方框内。

大致来说,像素色值的修改方案其实是方框内公式的组合。网格的第三维也存在类似的权重,对应于像素强度。

研究人员在由Durand团队和Adobe Systems创建的数据集上对他们的系统进行训练。这个训练数据集包含了5000张图像,每一张都经过5名不同摄影师的润色和修整。他们还在成千上万组来自特定的图像处理算法(比如用于生成高动态范围HDR图像的算法)的图像数据上进行系统训练。这个软件每次执行的图像修改需要占据大约一张数字图像大小的内存,因此,原则上说,一部手机完全可以按照不同的风格来处理图像。

最后,研究人员们将他们这个系统的性能与一个处理全分辨率图像的机器学习系统的性能作对比。在图像处理过程中,全分辨率版本需要大约12g的内存来执行其操作,而研究人员的版本则只需要100m内存。HDR系统的全分辨率版本生成一张图像的用时大约是原始算法的10倍,是研究人员的系统的100倍。

Barron表示:“这项技术对移动平台上的图像实时润色将很可能产生极大的帮助,将机器学习用于计算摄影的前景非常激动人心,但是它会受到手机严格的计算和功率限制。本文介绍了一些方法,帮助我们巧妙地避开了这些问题;并为我们提供了一个全新的、引人瞩目的实时摄影体验,在这一摄影体验下,我们不需要时刻担心手机电源很快会耗尽,也不用担心为了修图而错过拍照取景。”

【钛媒体作者介绍:本文由「图普科技」编译,您可以关注微信公众号tuputech,体验基于深度学习的「图像识别」应用。】

本文系作者 图普科技 授权钛媒体发表,并经钛媒体编辑,转载请注明出处、作者和本文链接
本内容来源于钛媒体钛度号,文章内容仅供参考、交流、学习,不构成投资建议。
想和千万钛媒体用户分享你的新奇观点和发现,点击这里投稿 。创业或融资寻求报道,点击这里

敬原创,有钛度,得赞赏

赞赏支持
发表评论
0 / 300

根据《网络安全法》实名制要求,请绑定手机号后发表评论

登录后输入评论内容

AWARDS-文章详情右上

扫描下载App