手机也能视频抠图，“绿幕侠”如何让人原地“环游世界”？-钛媒体官方网站

图片来源@Unsplash

在极富动感的音乐中，一名少年踏着滑板穿过了崇山峻岭和西部公路，就在你以为这是某个电影片段时，画面一转，屏幕外的少年只是在原地摆姿势。

以往这种效果，往往通过专业团队搭建绿幕完成，而现在一家公司想用AI技术“取代”绿幕，让人在手机拍摄时，就能实时完成视频抠图。

这便是Versa（上海懿天网络科技）公司推出的新产品“绿幕侠”，该产品希望能够一部分“替代”绿幕，让普通人也参与到微电影短视频的制作当中。

如下图所示，用户进入“绿幕侠”后默认是绿幕，用户还可选择其他视频场景如“梵高的博物馆”、“徒步欧洲”和“像素人”等主题。视频中的人像会被App自动抠图出来，可改变大小或复制拼贴。据钛媒体观察，当前产品中内置的许多视频场景由用户上传。
用户可在“绿幕侠”主页可选择不同场景拍摄视频

用户可在“绿幕侠”主页可选择不同场景拍摄视频

Versa希望能做成手机端的Adobe，只是前者的受众偏向设计师等专业群体，而Versa公司希望能降低创意设计的门槛。与Adobe全家桶类似的是，未来versa也打算推出一系列产品，专门解决普通人在图片、摄影、视频和音乐方面的创意设计问题。另外，除了移动端，这些产品也将逐步在Pad和PC端上落地。

2018年8月，Versa推出了AI图像处理App“马卡龙玩图”，该产品的定位是“手机端Photoshop”，其最重要的功能之一，就是利用计算机视觉中的AI图像语义分割技术进行一键抠图，实现人景分离和图像分离。用户不仅能一键P掉游客照中的路人，还能穿梭于世界名画、日漫风景等各种场景中。

蔡天懿对钛媒体透露，之后“马卡龙玩图”也会上线视频抠图功能，不过与“绿幕侠”不同的是，前者注重视频的编辑功能，会对已有视频做特效编辑；而后者重视拍摄过程，可实时抠图完成特效。

用户在产品的内容社区上传自己的作品（图片来源于马卡龙玩图）

AI图像语义分割是Versa公司系列产品中最核心的技术。从“马卡龙玩图”到“绿幕侠”，Versa产品的处理对象完成了从图像到视频的跨越，两者都基于AI图像语义分割，只是后者面临的技术挑战更大。

那么，实时的视频抠图要如何实现，实现了部分特效制作的“绿幕侠”又有着怎样的想象力？

视频抠图的技术攻坚战

马卡龙玩图刚上线时仅能做到人景分离，现在已经能做到图像分离，分割几十余种常见实例，除了识别人，人体各部分（如五官、头发和衣服）还有人的附属物（如背的包袋）等等。

视频抠图也是如此，多张图片的连续便成了视频。帧数越多，人所看到的视频越细腻。电影的帧数是24帧/秒，而“绿幕侠”的频率已经能达到30帧/秒，相当于1秒处理30张图片，一张图片约为33毫秒。

“绿幕侠”视频抠图示意图（来源产品宣传片）

在从图像抠图到视频抠图的转变中，Versa团队曾面临一个问题：做实时视频抠图，AI模型的运算选择云端还是手机端？

“我们决定把运算放在手机端而非云端。这主要出于实时处理、节省费用和个人隐私三方面的考量，”蔡天懿对钛媒体表示。

他补充道，首先，在云端处理往往有100毫秒的时延，而“绿幕侠”是实时抠图替换背景，有时延便无法做到实时。其次，视频处理跑在云端需要额外负担比图片处理高30倍的云端服务器的成本，且用户数越多成本越高。第三，拍照视频都属于个人私隐，上云也会存在安全隐患。实现手机端运行是绿幕侠App落地的首要条件。

像前段时间流行的FaceApp能让人一键变老，该产品就是要先上传到云端再做计算，不仅会受到网络状况的影响，还被质疑上云会侵犯用户的隐私。

但是把视频抠图放在手机端运行，技术门槛并不低。这既需要将云端的大算法模型缩小到手机端同时又保证处理效果，又需要能够提供足够算力的手机芯片。

在算法模型的升级上，Versa的AI实验室于今年3月份完成了模型小型化，实现了把模型从云端放到手机端的前提。

蔡天懿对钛媒体举例道：“如果用一台8000块钱电脑的GPU做人景分离，一张图需要100毫秒，一秒仅能做10张图；但Versa的算法模型一秒可处理30张图，还要保证一定的精度。优化后AI模型增强了其处理能力。”

在模型优化后，蔡天懿发现许多芯片依然带不动他们的AI模型，他们需要一个算力足够大的芯片。当前，“绿幕侠”产品在搭载麒麟810芯片的华为荣耀9X新机型上首发，麒麟810芯片内置了华为自研的达芬奇架构NPU，能为AI模型提供足够的算力支持。

“事情的本质是，我们有很好的AI模型，你敢有很好的芯片吗？华为有了”，蔡天懿打趣道。

不过，不同芯片对于AI语义分割的效果也是十分明显的。据蔡天懿表示，如果在其他芯片算力不够的手机上运行，效果出现帧数减半、卡顿或者精度不足也是无可避免的。这也是该产品在华为荣耀9X机型首发的原因。

新技术会带来新的工具，新的工具又带来新的玩法。

“除了18-25岁的年轻用户，现在很多跳广场舞的阿姨也在用我们的产品，她们会把自己跳舞的照片P到荷叶中间去，我们很高兴能为普通人实现创作梦想，”蔡天懿对钛媒体表示。

如何从工具转型为社区，是图像和视频处理工具普遍面临的挑战。即便美图秀秀这种头部的美颜修图工具在转型内容社区时也会受挫。业内人士曾对钛媒体分析，转型失败的原因在于该类工具的社区充斥大量自拍照片，内容同质化所以缺乏吸引力。

蔡天懿也认为，“用户的创意内容才能使社区内容更多元。”为此，Versa官方也会推出话题鼓励用户作图并发布在社区中。

除了在C端获客，Versa也正在考虑和短视频直播方和影视制作方合作。据蔡天懿预计，夹层广告将为短视频直播类产品带来广告收益。实时视频抠图也将降低传统绿幕特效和动作捕捉的成本，并且减少后期制作周期。在不断优化下，未来或可达到影视制作工业级效果。

Versa还上线了OpenAPI平台，为开发者们与企业用户提供多种图片API接口如风格渲染、人像分割、智能填充等，并为企业提供定制化的服务。

当前，Versa已经完成来自包括红杉资本、真格基金和臻云创投在内的三轮融资。去年12月，Versa获得了来自腾讯的数千万美元A轮融资。Versa还与上海交大联合成立了“脑科学与人工智能”实验室，去年一年发表了100多篇相关领域论文。

蔡天懿对钛媒体表示，接下来Versa有三个深化方向：首先是做的更精细，让边缘清晰到连头发丝也能抠图出来；第二是要更快，希望每秒处理的帧数可以提高；第三是更多，希望不只能把人抠出来，还可以抠更细的物体，比如鞋子、衣服等等。

“你知道钢铁侠的眼镜‘伊迪斯’吗，只要戴上就能把每个物体扫描出来。我希望能达到这种图像分割的效果，处理的更快也更多。”蔡天懿说。

（本文首发钛媒体，作者/芦依，编辑/蔡鹏程）